破解分布式应用开发难点!华为计算开放创新再升级

智东西9月25日报道,全面阐述计算产业战略一年后,华为晒出了最新的成绩单,离“2万亿美元计算产业大蓝海”的目标又近了一步。经历了一年风起云涌的落地大潮,今天,华为全联接大会第三天,华为在鲲鹏+昇腾计算图谱上,再布下几枚新的重棋:进一步开放鲲鹏主板,发布鲲鹏应用使能套件Kunpeng BoostKit、鲲鹏开发套件Kunpeng DevKit、openEuler 、openGauss、MindSpore社区最新版本,并推出破解多样性计算时代核心痛点的“大杀器”——分布式多样性计算软件套件。华为计算产品线总裁邓泰华表示,该软件套件“南向屏蔽多样性算力开发复杂性,北向使能分布式并行应用的高效开发,高效释放多样性算力潜力,助力分布式应用价值创造。”至此,鲲鹏+昇腾计算全栈能力已完整揭晓,透过华为在计算产业的谋篇布局,我们可以看到,华为的多样性算力资源如何顺着“开放创新”的通途,滋养千行百业的计算沃土,又如何沿着由生态所衍生的千百条道路,潜移默化地影响千家万户。

全栈计算能力披露!覆盖全场景开发需求

开发者有日常“三烦”:算力资源贵、算法跑得慢、工具使用难。以种地来类比,就是发动机燃料太贵,种植和收割庄稼效率低下,劳作工具用起来不顺手,这些是拖累在全新土壤上孕育繁茂生态的核心阻碍。自公布鲲鹏+昇腾计算产业战略以来,华为紧锣密鼓地将其“硬件开放,软件开源,使能合作伙伴”的战略落到实处,陆续将鲲鹏主板等硬件开放给伙伴,上线服务器操作系统openEuler、企业级数据库openGauss、高性能数据虚拟化引擎openLooKeng、全场景AI计算框架MindSpore四个开源社区,并在18个地区建设生态创新中心。

除了华为主导的开源社区外,华为在Linux Kernel 5.8的代码贡献量达到TOP2,在主流场景下,80%开源项目已原生支持鲲鹏。昇腾已兼容主流AI框架、110多种主流模型。邓泰华说,鲲鹏、昇腾计算领域目前已发展30万开发者、1000多家合作伙伴,通过3000多个解决方案认证。为了向这一目标靠拢,今天,华为展示了鲲鹏计算和昇腾计算的全栈能力。

从今天展示的全栈能力来看,华为正持续补充“硬件开放,软件开源,使能合作伙伴”的内容。硬件层面,华为将鲲鹏主板升级为“基础板+扩展板+BMC/BIOS”的全新开放模式,给合作伙伴更多发挥创新的空间。

软件层面,鲲鹏社区推出openEuler 20.09版本,全场景AI计算框架MindSpore 1.0版本也正式发布。openEuler 20.09新增自动化测试平台Crystal-CI,支持鲲鹏、昇腾、x86等多样性算力;MindSpore 1.0版本将支持模型、算子及硬件处理单元级全自动并行、二阶优化,对端边云设备全场景适配,可将大规模训练时间从月缩短至天,并能将模型性能提升40%,还提供了可将业务快速迁移至第三方框架的转换工具。

据IDC预测,到2023年,全球计算产业投资空间1.14万亿美元;中国计算产业投资空间1043亿美元,接近全球的10%。在这样广阔的市场空间中,华为的计算实力正日益凸显出来,带动国内计算生态链的整合与兴起。

全栈计算能力背后,华为的三重底气

之所以能构建如此完备的全栈基础软硬件平台,源自华为的三重底气。第一重底气是技术沉淀。基于过去二十多年积累的芯片研发功底,华为打造了具有竞争力的鲲鹏和昇腾两大技术平台,并在此基础上布局覆盖云边端的全场景的多样性算力平台,连同一系列华为研发的基础软件工具,组成了华为计算深厚的技术根基。软件工具同样凝聚了许多华为工程师经年累月的智慧结晶。例如用于AI平台算子及网络开发的异构计算架构CANN,即是由华为多个研发团队、历经数年迭代,才形成端边云全场景协同、训练和推理性能全面领先的统一编程架构。

第二重底气是深入行业。作为全球领先的ICT基础设施提供商,华为在自身实践中积累了丰富的数字化和智能化经验,亦通过参与各种具体业务场景的实践,充分掌握和理解企业及开发者的核心痛点,从而更有针对性地提供降本提效的基础软硬件设施。例如,过去一年,经过与合作伙伴的磨合,华为针对大数据、分布式存储等八大场景,推出包含高性能开源组件、加速软件包和工具/参考实现的鲲鹏应用使能套件Kunpeng BoostKit,帮助应用层开发者释放更高的性能。除了有扫描、迁移和调优功能外,鲲鹏开发套件Kunpeng DevKit还新增了编译、无源码迁移能力,另外还推出了工具插件化和IDE开发环境集成。

第三重底气是开放生态。独木难成林,一家企业的力量毕竟有限,要充分释放基础软硬件平台的价值,需要各类生态伙伴各展其长,融合多元能力,共同做大计算产业的蛋糕。如今鲲鹏和昇腾计算基础设施已在多类政企及科研应用场景中实现规模化商用,两大计算产业生态也逐渐变得枝繁叶茂。可以看见,华为的全栈能力并非一气呵成,而是通过与伙伴的合作中汲取养分,递进式地逐步丰富。而在鲲鹏、昇腾、x86、GPU等多样性算力的基座铺就后,新的问题摆在华为眼前——面对高性能分布式计算对多样化计算资源的诉求,如何实现算力资源的最优匹配、高效利用。

破解多样性算力协同痛点,让分布式应用构建快如搭积木

大数据、AI、高性能计算等新兴技术的发展,催生了海量数据,加上高并发、低时延、重负载、弹性扩展的业务诉求与日俱增,加速应用走向分布式,算力也趋于异构。这给开发者带来新的开发负担。从算力来看,通过软件开发发挥众核算力优势、将应用和多样性算力进行最佳匹配,都是不小的挑战。从调度来看,应用性能难以随着规模而线性增长,而管理成本却随着系统规模倍增,应用在多样性算力资源池之间共享资源十分困难。从应用来看,有状态应用的数据处理复杂,会制约并行性能,融合分布式应用的并行逻辑更是复杂。面对这些挑战,华为采用软硬件解耦的设计,打造了适配多种算力平台和多场景应用的分布式多样性计算软件套件,基于集群加速器、统一调度器、分布式并行应用开发框架三大关键部件,从算法优化、集群调度、应用构建层层提速,帮开发者降低开发门槛。

首先,从算法优化提速。集群加速库已覆盖各种分布式多样性计算场景,并与主流分布式应用生态良好对接,通过持续迭代创新,优化分布式系统性能。例如,新发布的机器学习库平均性能较主流开源库提升超过50%,图分析库平均性能较主流开源库提升超过80%。基于算法突破创新,集群加速库不仅可以大幅提升可处理数据规模和多核并行度,还能加速多样算力运算,减少分布式网络通信带宽消耗。

其次,从集群调度提速。当前调度器多为专用,缺少能跨多应用领域的统一调度器,系统规模倍增又会面临线性度下降、管理难度倍增的问题。对此,华为推出统一调度器,将多样性算力平台与全场景应用打通,实现规模、调度性能、资源利用率等三大突破,支持大规模高效率跨领域资源协同,可做到无代码侵入的AI和大数据应用生态整合,在主流AI、HPC、大数据等应用集成的资源利用率高达逾90%。统一调度器突破大规模分布式技术,可支持2万节点、30万运行作业;并突破了关键调度算法,能实现百万核MPI、3分钟启动,调度能力达到5k/秒,在真实工作场景中,每小时可完成4M运行作业量。

最后,从应用构建提速。得益于无服务器(Serverless)计算的发展,用户无需操心运行和运维所需的资源,能更加专注于自己的业务创新。但当前Serverless开发高性能并行应用场景仍受限制,比如无状态的计算抽象、无法进行函数间协同、函数间无直接通信、应用开发门槛高等。对此,华为打造了基于函数计算的分布式并行应用开发框架,使得开发者在大规模分布式系统上享受单机编程体验,像搭积木般快捷地构建分布式并行应用。

据华为计算产品线研发总裁熊彦介绍,分布式并行应用开发框架的整体技术架构由五个关键组成部分:(1)AI for System Builders:通过AI提升性能调优和故障定位;(2)通信系统:支持函数间的直接通信能力,支持毫秒级函数快速启动;(3)数据系统:提供高扩展低时延的数据缓存系统,万级函数实例扩展,缓存读写缩短10倍。(4)Function Core:解决资源抽象问题,实现数据亲和性调度,多样性算力使能。(5)Function Pattern:抽象业务应用领域并行模型,大幅简化分布式并行设计。熊彦介绍,集群加速库和统一调度器将在今年12月上市,而分布式并行应用开发框架的上市时间相对晚一些,预计在明年6月。分布式多样性计算软件套件落地后,会进一步扩展了华为的全栈计算能力,将鲲鹏昇腾生态的底座构筑地更为坚固,使得开发者能更聚焦于业务逻辑,加速创新应用。

开放生态,哺育人才,拟覆盖2600+院校

仅靠一家企业难以包打天下,华为将上述全栈能力全部开放出来,和生态伙伴一起构建枝繁叶茂的生态大树。而这颗大树要想长成参天之势,俨然离不开一家科技公司的长久生存之本——人才。在华为全联接大会首日的主题演讲中,华为轮值董事长郭平坦诚谈到:“华为现在遭遇很大的困难。持续的打压,给我们的经营带来了很大的压力,求生存是我们的主线。”但即便危机当前,郭平在回应媒体关于裁员可能性的问题时,坚定地表示:“把沙子变成芯片靠的是什么?靠的是优秀人才,华为在将来会继续保持业务的平稳和吸纳优秀人才。”华为对人才的重视,在计算战略中同样得到充分体现。自2015年公布沃土AI开发者计划至今,华为投入大量精力培育鲲鹏和昇腾开发人才,如今已构建良性人才生态,通过联动高校开设课程促成产教融合。

毕竟,数字世界的高楼大厦垒于代码,开发者是输出创新代码的“永动机”。要培养掌握华为鲲鹏和昇腾全栈技术能力的生力军,需从高校学生抓起。从去年到今年,华为陆续推出深度学习框架MindSpore、ModelArts AI应用开发、鲲鹏处理器、openEuler操作系统、openGauss数据库等学习教材和系列教辅资料,未来还计划发布更多相关专业教材。

除了课程和教辅资源外,华为联合高校进行通用计算、AI等领域的专业课程建设,并向合作高校提供包括现金、软硬件资源、平台资源、师资培训、创新实践等方面的支持。华为也注重提供开发实践和行业应用的机会,面向学生开展技术沙龙、大赛、论坛、课程微认证等丰富的课外实践活动,并支持高校向华为推荐优秀学生参加实习就业。今年已有20多所高校试点融入鲲鹏、昇腾知识的信息专业课程,到明年这一数量将超过70所。在演讲期间,邓泰华还宣布:“华为与教育部合作,联合首批72所高校,共同成立‘智能基座’产教融合协同育人基地,通过产学研协同为计算产业高质量发展奠定人才基础。”

华为更长远的目标,是覆盖2600余所高校及高职高专高校,让鲲鹏、昇腾成为高校学生必备技能。这些在开发人才培养方面的投资,将为未来鲲鹏+昇腾计算产业生态的发展输送源源不断的活水。

结语:一花独放不是春

华为从全栈能力开放创新到人才培养的布局,指向的是2万亿美元的计算产业大蓝海。2016年,华为提出要建设“哥斯达黎加式”生态,让利使能,使得华为的伙伴成为新价值链上的最大获益者。在去年提出计算战略时,华为也再度强调“有所为,有所不为”的商业策略,不做应用,而是通过提供硬件开放、软件开源、工具和团队,来支持合作伙伴的发展。基于这样的策略,华为计算的黑土地上,正为生态伙伴和开发者创造更多创新的机会和增益的空间,从而促成更为繁荣的计算生态。计算产业是个高度生态型产业,离不开华为这样的基础软硬件基础设施建设者,离不开将先进AI技术实现商业化构建的技术层、应用层玩家,更离不开每一位用AI改变世界的开发者。随着华为计算生态的持续扩容,鲲鹏和昇腾计算平台的底层算力将会像水电煤气那样,深入千行百业,成为提升生产力的重要源泉。

推荐阅读