云计算话语权之争,阿里云祭出自研强招
撰文/ 何己派
跨过年度盈利节点的阿里云,正加速迈向下一个周期。
今年,这家云巨头的关键词是“回归本质”,既指商业层面,追求更健康、更可持续的增长,也指技术本源的回归。
6月13日,一年一度的阿里云峰会上,阿里云智能总裁张建锋用“Back to Basic”的口号开场,提出要回到云计算的本质。
以Back to Basic的心态做B2B的生意,一语双关。
“云计算进入了一个关键的突破期,如果我们定义好下一代技术,中国云计算就有超车机会。”张建锋说。
阿里云智能总裁张建锋发布CIPU
承载这一使命的关键,是横空出世的新型云数据中心专用处理器CIPU。阿里云表示,它将替代CPU,成为云时代IDC的管控和加速核心。
放眼国际,云厂商加码自研云计算服务器,渐成趋势。阿里云欲重新定义云计算底座,底气来自何处?
深水区
要探讨阿里云为何重仓自研技术,先来看看行业背景。
从100%上云的北京冬奥会,到号称全世界最繁忙网站之一的12306,云计算改变了算力的生产和输出方式,融入人们的生活,成为关键社会基础设施。
回顾云计算的发展历程,在张建锋看来,技术经历了两个发展阶段。
第一个阶段,互联网企业高速成长,带来极强的算力弹性需求,推动着以分布式和虚拟化为代表的云计算技术,替代了过去的大型机。
第二阶段,企业对算力可用性和可靠性的要求不断提升,倒逼阿里云等云计算公司将计算、存储、网络资源池化,构建计算存储分离架构,以云原生方式重新设计整个架构和软件。
由于资源池化技术的诞生,规模和稳定性的瓶颈得以突破,为企业业务的扩展,提供超大规模的云计算服务。
在这个过程中,客户上云的需求、技术的更迭速度较快,既要求技术面广,又要求技术深度,做云成为一门技术活。
厂商只有具备持续研发能力,不断积累、更新和优化技术,才能建立壁垒,满足市场需求。
因此,发展十余年来,云计算变得越来越硬,亚马逊的AWS、微软的Azure、阿里巴巴的阿里云等,头部企业皆坚持自主研发,且保持高强度的自研节奏,不局限于数字云化,向着一站式技术平台进阶。
其实,论技术能力,以阿里云为代表的中国云厂商,并不输其他国际巨头。
阿里云自研的飞天,是中国唯一自研的云操作系统,单集群可达10万台规模,千亿级文件数,EB级别存储空间,可将遍布全球的上百万台服务器连接成一台超级计算机。
去年11月,Gartner发布2021年IaaS+PaaS综合解决方案记分卡,阿里云在全球被评估的供应商中,得分第三高。
买设备还是从头自研,面对这个问题,阿里云没有纠结。2009年,阿里云成立不久,工程师便写下“飞天”的第一行代码。
如今13年过去,其运营的服务器已超过上百万台,建立了覆盖全球的算力基础设施,服务400万付费用户。
期间,行业云卷云舒,那些前期没有太多技术投入的厂商,交完“学费”即遗憾退场,验证了拿来主义盖不起高楼大厦,自主研发的云才能走得更远。
从“神龙”计算、“盘古”存储到“洛神”网络,阿里云的整套自研技术体系共同融合,支撑算力如同水电一般供到千家万户。
“今天我们可以很自豪地讲,阿里云的云计算从端到端,核心技术都是自研的。”张建锋说。
来源:视觉中国
话语权
当下,云计算进入一个新的关键突破期。
随着数据密集型的计算越来越多,提升了对云计算提供的低时延、高带宽的需求,而这些需求很难通过传统体系结构的优化来满足。挑战在于三方面:
其一,基于传统的以CPU为中心的计算体系架构,出现计算和网络传输时延大的问题;
其二,大数据应用持续增多,导致数据中心内部数据迁移量增多;
其三,管理的基础设施规模越来越大、越来越复杂。以阿里云为例,其在全球27个国家和地区、84个可用区,管理着上百万台服务器,传统架构无法解决超大规模的复杂管理问题。
通过软件定义的方法,基于传统的、以CPU为中心的计算体系架构来做优化,这套范式已触及瓶颈。
新旧转换的拐点,呼唤全新的技术体系。谁能以更具竞争力的产品制定行业规则,谁就能掌握下一轮竞争的话语权。
近年来,越来越多云厂商强调软硬结合,纷纷自研服务器和芯片,即能证明这点。
阿里云给出的答案是,从数据中心的内部体系结构做革新,从以CPU为中心的“马车时代”,向以飞天操作系统+CIPU为中心的“汽车时代”升级。
早在2015年,阿里云相关研发团队就开始技术攻关,2017年,推出业内首款虚拟化损耗为零的神龙云服务器。
经过多年自研迭代,神龙、弹性RDMA等核心技术不断深入垂直整合,以CIPU为中心的全新架构形态,开始成型。
据张建锋介绍,CIPU是为新型云数据中心设计的专用处理器,它向下接入物理的计算、存储、网络资源,快速云化并进行硬件加速;向上接入飞天云操作系统,管控阿里云全球上百万台服务器。
CIPU架构示意图
从具体特性来看:
CIPU与计算结合,能快速接入不同类型资源的服务器,带来算力虚拟化损耗降至“0”,以及硬件级安全的加固隔离;
与存储结合,对存算分离架构的块存储接入进行硬件加速,云盘存储IOPS最高可达300万,长尾时延降低50%;
与网络结合,可对高带宽物理网络进行硬件加速,构建大规模弹性RDMA高性能网络,时延最低可达5us。
简而言之,物理机一样的性能,远超物理机的敏捷性,以及云计算的弹性。
三大特性里,尤其值得一提的是网络这块,CIPU实现了RDMA技术的普惠化。
阿里云技术产品负责人蒋江伟提到,RDMA是门“贵族化”的技术,对工程师、代码、硬件投入的要求都非常高,阿里云基于CIPU+飞天的架构推出弹性RDMA技术,能让所有中小企业享受到大企业才能获取的技术红利。
他们在阿里云上开发几乎不用改代码,使用的操作系统是全兼容的。
站在客户使用的视角,CIPU的升级是无感的,已融入阿里云整体的云平台,不需要做任何应用调整、修改任何代码,但在取用时,能明显感知到云算力的调度效率和性能有了大幅提升。
用阿里云虚拟化技术负责人蒋林泉的话说,“CIPU是跑在我们的云操作系统底下的,客户的应用跑上来,只会觉得更快、更敏捷、更灵活。”
CIPU特性简介
变速期
进入2022年,中国云计算市场稳中有变。
市场调研机构Canalys6月初公布的数据显示,2022年第一季度,中国大陆云基础设施服务支出同比增长21%,达到73亿美元。尽管云服务总支出低于预期,但中国市场领跑全球云服务市场的增长。
市场份额排名方面,阿里云牢牢把控第一的位置,与华为云、腾讯云和百度智能云一起,受益于云计算使用规模的持续扩张,“四朵云”占中国云服务总支出达到79%,同比增长了19%。
需求侧,互联网及移动互联网企业仍是主力军,同时传统企业提速上云势不可挡,政府、金融、医疗健康等领域客户的规模占比,未来将进一步提高。
供应侧,云的角逐已至中场,缺乏核心竞争力和议价能力的厂商,或光速出局或深陷亏损内耗,行业参与者从以往的低质竞争,转向精耕细作。
在这样的背景下,中国云服务商里目前唯一实现了盈亏平衡的阿里云,开始进入高质量发展阶段。站在千亿营收规模的新起点,眼中的风景已然不同。
在张建锋看来,阿里云发布的新一代云计算体系,不仅会对云、对数据中心内部产生影响,也将改变传统计算机终端形态,以及软件应用和开发界面。
其中,在计算机终端维度,阿里云此次峰会上推出的云电脑无影,进行了再次升级,支持开发者打造8K画质体验,并将时延控制在20毫秒内。
“云计算越来越接近进入下一个时代——全新的架构定义,全新的软件界面,硬件加速。我们错过了PC时代,但云时代,大家起步是一样的。现在是重新定义云的窗口期,如果我们定义好了,中国就可以在下一个技术时代有自己的一席之地。”张建锋表示。
一个容易被忽视的细节是,张建锋在发言中提到,为了无法计算的价值,是阿里云不变的使命。在一些城市机场,阿里云的广告回归“为了无法计算的价值”这一最初版本,这是其2015年提出的口号。