最近,科技圈都在关注一则新闻。阿里巴巴旗下的平头哥,发布了第一颗通用CPU芯片——倚天710。这一芯片将为阿里云自用,实现阿里云的“软硬件合璧”。
这个新闻看起来很专业。但我们不妨打开视野,从人类数百年工业发展史,来理解这一事件,或许就能更清晰地知道它的意义。
人人都烧过开水。在我看来,烧过开水,就已经能够理解人类数百年工业发展的真谛。
众所周知,工业革命的开始是从蒸汽机开始的,而蒸汽机的动力来源就是靠“烧开水”——制造蒸汽,然后把高压蒸汽转化成为动能,从而带动机器。
后来,尽管有了各种各样的新技术,但本质其实都是在“烧开水”——别看今天的核电站那么先进,实际上,核电站的本质还是“烧开水”——通过可控核裂变所产生的高热来烧开水、产生蒸汽,然后带动轮机转动发电。
华龙一号机组使用的蒸汽轮机
核反应堆,其实就是一个高级的烧水炉子。
可以说,“烧开水”就是工业的“原型机”,我们今天在能源上的各种努力,为的无非就是更高效、更简单地烧开水。
在我看来,任何产业都是有一个“原型机”的,它可能只是一件很简单、很日常的事情,但随着时间推移和技术发展,围绕着这个“原型机”,人们开发出了各种花活儿。
这,就叫做技术进步。
在信息产业,道理也是一样的。
区别就在于,传统工业的“原型机”是“烧开水”,而信息产业的“原型机”则是“解方程”。
是的,你看的高清电影,你4K画质的游戏,你每天用支付宝和微信支付的那些金钱,还有工厂里的生产线、机器手——毫不夸张地说,当代社会的绝大多数经济活动,背后都是数据计算……如果你能问你的手机和电脑在干啥,它们大概率会来一句:别烦我,我在解方程!
简单粗暴点来理解,今天我们所熟知的“算力”概念,衡量的就是解方程的速度,即计算的能力。
实际上,在IT产业里,有算力真的可以为所欲为——谁能掌握更强的算力,谁就能掌控一切。不信,你就去看看那些做芯片的:英特尔、英伟达、高通、苹果……哪一个不是世界巨头?哪一个不是商业传奇?
说句夸张点的话,今天我们看到几乎所有关于科技进步的新闻,只要是和芯片、互联网相关的,八成都从某种意义上能和算力扯上关系。
我们已经越来越清晰地看到,算力已经逐渐和电力一样,成为一种基本的公共资源。或许某天,每个城市都会有一个自己的算力中心,恰似现在每个城市都有自己的发电厂。
以前是村村通电,后来是村村通网,未来就是村村通算力。
兄弟们,尤其是制造业的兄弟们,信我一句话:以后你们会遇到越来越多的数据,此时,算力就像电一样,今天你们生产线上有多少地方需要用电,未来就有多少地方会和算力扯上关系。
算力,就是新时代的“电力”。
中国的算力,行不行?
好了,现在我们知道了“算力”的意义。
下面就要谈谈中国的算力了。
中国的算力,到底行不行?
答案是:行,很行,非常行。
在全球算力排行榜上,领跑者只有两个,一个是我们,另一个就是美利坚。
根据浪潮信息和IDC联合发布的《2020全球计算力指数评估报告》,满分100的条件下,美国算力综合得分75,中国综合得分66,其余的国家,有一个算一个连及格线60分都没摸到。
英法德日处于40/50分梯队,巴西和俄罗斯则只有30几分。
嗯,这里我又要黑一下印度了,印度甚至没有30分,而且我很怀疑它可能连20都没有。
扯远了,坦白说吧:算力,已经成了未来经济的新引擎——算力指数每高1分,GDP就会相应增长约0.18%。
同样是这份报告,还有一个数据值得关注:从2015年到2019年,在这份报告的样本国家里,AI计算市场的支出增长,有50%靠的是中国。
这就说明,中国人更重视AI计算市场,更愿意为算力的增加而付费,中国人更重视算力。毕竟,中国AI算力占总算力的比重高达14%,美国只有10%。
中国为什么算力这么厉害?
因为中国是一个对智能手机、移动支付、电商等等东西需求极度旺盛的国家。
为了满足全国人民“双11”买买买的需要,为了满足大家能在抖音快手上看视频的需要,我们搞出了世界一流的“算力基础设施”。
而在中国“算力建设”的丰碑上,在许许多多贡献者的名单中,我发现了一个熟悉的名字:阿里巴巴。
是的,那个最初靠电商发家的阿里,它对中国的“算力建设”贡献很大。
当年的算力缺口
在算力建设上,阿里做的很好。
主要来说,做了两件事:
第一,率先带动了中国云计算的发展。
第二,做了自研的服务器和芯片。
时间回到13年前的2008年。
那一年,中国发生了很多事情。汶川地震、北京奥运……这些都是会被后世载入史册的大事。
而在中文互联网的历史上,2008年也是一个重要的年份——2008年6月,中国网民数量首次超越美国,成为全球最大网民群体。
但问题也接踵而至,虽然中国网民数量多,但中国的算力建设却极为落后。中国互联网的核心装备:服务器、数据库、存储器……几乎都是进口货。那时候我们只知道怎么用这些装备,却不知道怎么才能拥有自己的装备。
阿里工程师,可能是最早感知到“算力需求”的一群人。
2008年,阿里就已经面临算力压力:每天早晨八九点钟,当全国各地的商家都开门营业的时候,阿里服务器的“折磨”就开始了——每天这个时候,服务器的负载都达到了98%的水平,只留下了2%的余量——稍微有点风吹草动,阿里的系统就有可能面临崩盘。
想改善这种状况,最直接的方法自然是“买买买”——直接采购外国成熟的产品,反正大家也都是这么做的。
但阿里不一样,阿里当时处于快速成长期,业务增长的速度太快了,需要服务器数量以千和万为单位。外国设备动辄几十上百万,如果完全依赖进口设备IOE(IBM小型机,Oracle数据库、EMC存储设备),阿里的成本会瞬间爆棚。
阿里内部有过非常激烈的讨论。如果再不改弦更张,所有的收入增长,转手就要用来采购服务器和软件。那样,阿里就要给外国厂商打工了。
阿里如何发展算力
除了成本原因,阿里更看重的其实是面向未来的战略方向。
王坚院士当时作为阿里的“首席架构师”,需要负责阿里的技术成本核算,他发现了阿里一个非常严重的问题:阿里对于算力的需求呈现指数级增长,但业务增长却非常缓慢。
这说明,算力技术不进步的话,必然会在未来某个时间损害公司的长远发展。
可以说:死磕技术,是阿里生存发展的必需。阿里,必须要坚持科技驱动。
于是,迫切需要提高算力的阿里心一横,选择了当时还不被看好的“云计算”。
这就是著名的“去IOE”——前面提到过,I是IBM,O是Oracle,E是EMC,这三家美国企业是当年全球制霸的服务器、数据库、存储设备供应商。换言之,十三年前,这三家美国企业定义了全世界的算力规则。
2009年,王坚领衔的阿里云成立,开始自主研发云计算操作系统“飞天”,意欲将全球数百台服务器连成一台超级计算机,让任何企业、机构和个人只要联网就能获得即开即用的计算能力。
彼时,这还是一片“无人区”,一切都在摸索。“飞天”下设两个技术路线,一个是用外国的开源技术Hadoop,被称为云梯1,另一个则是纯粹自研的云梯2。
“去IOE”的第一关,从O开始动手。阿里的计划是用自研架构来取代Oracle的数据库架构。
当阿里的程序员们得知这个计划之后,他们的第一反应是震惊——自己这么多年都在研究Oracle,现在说不用就不用了,这不是砸自己的饭碗么。
但很快,大家就看清了:如果现在不去“自我革命”,以后可能真的就危险了。
人心齐,泰山移。
在经过一年多的攻关后,2010年初,阿里云成功了——系统的稳定性非常优秀,人们纷纷表示:这不像是阿里云的作品啊。
稳定性,只是一步棋而已。
若想提高算力,则要求这个阿里自研的“云梯2”能够独自调度超过5000台服务器。这个挑战,就被称为5K。
“飞天”系统成功挑战5K 纪念碑
然后,在经过极度艰难的三年研发之后,2013年6月,云梯2冲击5K成功。
实际上,阿里对于自研系统的成功早有信心。
2013年5月17日,阿里就下线了最后一台IBM小型机(服务器),一个月后,2013年7月10日,阿里下线了Oracle系统。
“去IOE”计划,成功了。
之后的路,便是一片坦途——几个月后,阿里突破了10K,“云梯2”被命名为能够独自调度1万台服务器——这意味着,阿里的自研系统已经可以无限制扩展了。
阿里云也因此成为了中国第一家拥有完整云计算能力的企业。
阿里的自研硬件
阿里为中国算力建设做的第二件事,就是做了自研的服务器和芯片。
乔布斯说得好,做软件最后都是去做硬件的。毕竟,一切软件想发挥自己的最大效用,都离不开硬件的支持。
在软件系统突飞猛进的时候,阿里开始了自己的硬件之路。
2018年,阿里成立了“平头哥”——全称是平头哥半导体有限公司。
一年之后,2019年。阿里推出了“含光800”AI推理芯片,作为一种专用芯片,它在执行特定任务的情境下的威力极其强悍,一块“含光800”顶得上10块常规的GPU,淘宝上每天新增的十几亿张产品图,用传统GPU来识别需要一个小时,而它只需要几分钟。
前天,阿里在杭州“2021云栖大会”上发布了一颗通用芯片——倚天710——5nm制程,集成了600亿个晶体管,已经达到了世界级的水平。
为了适配倚天710,阿里云还同时发布了自研的磐久服务器。
从芯片、服务器,到操作系统,数据库、大数据+AI平台,再到钉钉、云电脑,阿里坚持做深基础,双向生长,今天已经有了全栈自研的软硬件体系,是当之无愧的科技公司。
阿里的贡献:算力红利 拥有了强大算力的中国,现在可以玩很多以前完全不敢想象的东西。 我把这种骤然提高的想象力空间称为:算力红利。 算力红利的副产品很多,比如,数字孪生。 所谓数字孪生,简单来说就是把现实中的生产活动完全虚拟化,在数字空间里一比一精确地复制一个“双胞胎兄弟”出来——两者之间是即时同步的——现实中发生了什么事情,虚拟空间里就可以当场反映出来。
阿里是中国数字孪生产业的重要玩家
由于一切现实中的生产活动,都可以在虚拟的空间中找到对应,所以你所看到的虚拟世界也就和现实世界几乎没有差别。 但不同的地方在于,在数字孪生体上,一切的数据都是可视的——这也就意味着现实中工厂里存在的一些隐患、问题可能难以发现,但在完全数据透明的孪生体身上,这些问题就一览无余。
以阿里云参与合作的一汽红旗繁荣工厂为例:这间汽车制造厂生产的每一辆汽车,在后台的存储设备里都有一个一比一精确复制的“数字孪生体”。 这种精确可以精确到什么程度呢?你甚至可以看到每一辆汽车上的每一颗螺丝具体拧了多少圈。 之所以能够做到如此精确,主要就是因为算力的提升。
强大的算力意味着再多的数据也不怕,这就使得大到机械臂,小到螺丝刀,都可以装上传感器——最终,一汽红旗繁荣工厂里的传感器数量突破了百万级。 而常规的工厂里,传感器的数量只有5-6万个而已。 一旦汽车出现了质量问题,瞬间就可以还原当时的生产现场,然后分析质量问题的原因。工厂的管理人员借此就可以在极短的时间里发现良品率低或者效率低下的生产环节。 东风轻型车也是阿里云的合作伙伴。 借助阿里云带来的强悍算力,东风轻型车开发出了一套新能源汽车监控系统。这套系统可以同时做到对数百个车辆运行状态的跟踪。 由于算力太强,它也给了厂商们安装传感器的空间,也有了超强的精确性。
除了最基本的车辆定位功能外,它还能监视每一辆车发动机的工作状态、车轮的胎压、电池的余量,甚至有没有及时地打转向灯都能看出来。
以上的两个案例,勾勒了一个非常庞大的画面:中国的社会,正在飞速地进行数字化。 我们恨不得把所有的车辆,所有的工具设备,所有的生产资料变成可以分析和调用的数字。 这种数字化的趋势,代表着互联网和实体经济的结合——阿里提供算力,助力中国制造业工厂的数字化,帮助企业改进生产,提高效率,降低成本。
尾声:关于阿里和中国算力发展的一些思考 回到之前提到的那份报告。 中国的算力,的确已经很强了。但需要注意的是,我们和美国之间还有一定的差异。甚至在计算效率和应用水平上,我们的评分还没有日本、德国高。
原因就在于:中国太大了。当东部沿海城市已经完全熟悉了数字经济那一套的时候,偏远的内陆地区可能才刚刚开始进行数字换转型。 两个平均一下,中国的整体分数就下滑了。 因此,对我们来说,下一步的“算力提升计划”的重点,恐怕会落在一二线之外的中西部城市上。甚至更具体一点,可能会落在这些地区的中小企业身上——因为相比财大气粗大型企业,中小企业更缺乏进行全面数字化改造的条件。 从这个角度来看,阿里的未来发力深耕的机会很多——多年的电商经验,使得阿里本身就在客观层面上完成了对大量中小企业的数字化“培训”。现在要做的,无非就是利用好自己的技术,来好好地回馈社会。
除此之外,根据报告,中国的制造业已经成为了仅次于互联网的第二大算力用户——这说明,阿里带来的“算力红利”已经进入了服务实体经济的阶段。 阿里吃过缺少算力的亏,也尝过算力红利的甜。没有公司比阿里更了解,强大的算力意味着什么。 近年来,许多人都在关注,互联网的发展是不是“单兵突进”,会不会导致“脱实向虚”?阿里在技术领域取得的成绩,恰恰证明这种观点并不成立。
好的互联网公司,一定不会只搞应用,深入到核心技术的研发,不仅对公司而言意味着更强的核心竞争力,也可以为全社会的各行各业带来实质性帮助。 当今时代,数字经济和实体经济的融合发展是大势所趋,也是国家战略鼓励的方向。 在这个大背景下,我坚定认为:
一个死磕算力,一个专注于技术的阿里,必然会成为中国制造业的“金牌辅助”。