5月6日消息,特斯拉放出了他们的人形机器人——擎天柱(Optimus)的最新演示视频。
特斯拉的工厂中,擎天柱机器人经过数据训练,可以轻巧自由地拿取电池,放进电池槽中排列整齐。
支持11 DOF的灵巧手,能将4680电池准确放入空槽,即使失败,也能自主纠正。
特斯拉的机械工程师Milan Kovac表示,他们训练并部署了一个神经网络,使擎天柱能够开始执行有用的任务,例如上边视频中,拾取传送带下来的电池,并将其精确插入槽中。
这个神经网络完全端到端运行——意味着只用来自机器人2D摄像头以及机载本体感受传感器的视频,就能直接生成关节控制序列。
这个神经网络在机器人的嵌入式FSD计算机上运行,由板载电池供电。这样的设计,使得当特斯拉的工程师在训练过程中添加更多不同的数据时,单个神经网络可以执行多个任务。
除了特斯拉机器人大厂不断突破,整个通用人形机器人行业,在今年也迎来了爆发。
就在此次更新的一个多月前,黄仁勋在GTC大会开幕式上,将几个人形机器人带到场地中央,隆重推出了机器人智能底座——GROOT,把现场活动推向了最高潮。
再把时钟往回拨5年,大语言模型进入公众视野前,也许没有人敢预言,机器人赛道会在几年之内涌现出如此多的玩家。
因为严重缺乏训练数据,想让机器人能像人一样,在各种场合做出灵活的反应,难度非常大。很多机器人科学家当时觉得,可能要数十年之后,机器人才有可能出现“通用智能”。
就连OpenAI,在机器人领域尝试了一段时间之后,也不得不放弃,转到了感觉更有前途的大语言模型方向。
上个月网上热传的一张图片,集中呈现了国内外一流人形机器人产品的具体形象、身高、体重等基本信息。
在英伟达GTC发布会之后,这些机器人再次“同台”。
除了这张“人形机器人合照”之外,还流传着一张网友根据公开信息总结的人形机器人“技术进度表”。
3位一直关注机器人行业的外国网友,根据网上的公开信息,一直在更新——表格它详细对比了业内各家机器人的智能化程度。
根据总结,已经公开亮相过的,在技术层面智能化程度最高的是Figure AI的Figure 01,特斯拉的擎天柱(已经出到第二代)、Agility Robotics的Digit、Mentee,以及国内优必选推出的Walker,星辰智能推出的S1。
根据材料,以上这几家公司,都在自己的产品上实现了大模型“大脑”和机器人之间的融合。
能够“自动化完成工作”的人形机器人也不多,而这样的机器人基本上都在其他行业的工厂里找到了自己的工作:
Figure AI和BMW在今年1月份达成合作,共同开发通用机器人,让机器人进驻宝马在美国的工厂。
△The Verge
Agility Robotics的机器人“年纪轻轻就担起了生活的重担”,去年10月就入职亚马逊仓库,搬起东西来效率不比普通工人低。
△亚马逊官网
去年网上大火的一个视频,Agiliity Robotics的机器人Digit连续工作20个小时之后,众目睽睽之下直接崩溃……
这也引发众多网友共情:
它突然之间有了自我认知,看到了它这个种族黑暗的未来。
可怜的小兄弟,都没人过去看看它到底还好吗,未来的觉醒后的机器人将不会忘记这一天。
这可是专门为工作而设计的机器人,它们都吃不消,可见整个工作系统必须要做出变化了。
而国内最知名的人形机器人公司优必选的Walker S,也已经在蔚来的汽车工厂里愉快地“打螺丝”了。
另外,智能涌现根据公开报道,梳理了市面上机器人初创公司的融资情况。
国外:既想造车也想做物流
Optimus:手捏电芯精准分拣,正在工厂测试
特斯拉擎天柱除了开头提到的分拣电池的演示,在行走效果上,也有一定的进步:
办公室里多了个干溜达的”闲人”——虽然仍有拜登神韵,但至少走得更远了。
此次升级中,英伟达科学家Jim Fan也注意到遥操作(Teleoperation)亮点。遥操作即人类远程控制机器人,只要延迟、控制等条件得当,二者可做到同步。
擎天柱上一次更新,还是在2023年12月的Gen-2发布。当时的演示视频,也引起不少讨论——如步行速度相比前一代提升30%,做标准深蹲,用两根手指夹鸡蛋。
在不牺牲性能的前提下,还比之前轻了10kg。
马斯克在 2022 年曾表示,“擎天柱最终将比汽车业务乃至全自动驾驶都更有价值。”
按照马斯克的设想,擎天柱绝不只是在工厂替代重复劳动而已,而是要融入到家庭、办公场所等通用场景。
马斯克在4月底的财报电话会议上曾透露,Optimus已经能在工厂中完成简单的任务,预计2024年底之前具备完成“有用”任务,并在2025年结束前对外销售。
最新手捏电芯以及工厂测试的视频展示,不仅呼应了老马定的2024年小目标,也证明特斯拉正按照自身的落地时间线,稳步迈进。
Atlas:告别液压,电动版“诡异”出场
4月16日,波士顿动力发布Atlas告别视频。3分钟的短片里,浓缩了Atlas十年的“服役”生涯。片中的Atlas,空翻优美,身手矫捷,但也经历了无数次摔跤和故障。金字塔尖般的机器人马上要告别,引得不少网友“泪目”。
但也就是4月17日,宣布原液压版Atlas人形机器人退役的一天后,波士顿动力就推出全电动版本的 Atlas机器人。
双腿反蜷,原地站立,180 度转头,旋转调整躯干——整套动作没有手的参与,干净利落,却略显诡异。
电动Atlas的自由度相比前一代,已经无法满足于“人形”的束缚。
新版Atlas想说,不妨让机器人超越人类。正如一位Reddit用户说的:造出比地球生物运动水平更高的机器,难道是啥坏事吗?
△图源:Reddit
此次液压Atlas切换电驱方案,似乎也在宣告电驱才是人形机器人商业化进程主流。一方面,最新视频中已经大修肌肉,电驱带来的操控性更好,潜力更大。另外液压系统驱动成本太高,波士顿动力还因此被多次转手。
Figure 01:当大模型开始有“肉身”
波士顿动力起步早,Atlas能蹦能跳,但其他人形机器人公司正在某些方面弯道超车——更智能,更精细。
3月13日,机器人公司Figure发布一段视频:机器人与人进行对话交互,理解人类意图,而且还拥有记忆力。(见智能涌现文章 OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资)
问机器人看见什么,Figure 01清晰描述出苹果、放有杯碟的沥水架,连站在面前的工作人员也没放过,并强调了工作人员搭在桌上的右手。
工作人员说了一句“我饿了”,Figure 01立即就递过去苹果。甚至可以一边清理工作人员刚扔在桌面上的纸团垃圾,一边解释为啥刚才给了苹果。
工作人员直接扔出一个终极问题,问“Can you put them there?” (你能把它们放在那儿吗)
Them和There对机器人来说,本应是很模糊的代词,但Figure 01思索片刻,马上就把杯子和盘子放架子上了。
Figure团队负责人Corey Lynch的介绍,基于OpenAI的大模型,通过端到端神经网络训练,Figure 01能够完成快速、简单、灵巧的动作。所以,在文章一开始的进度表中,Figure是能将大模型与语音交互(LLM+Voice Integration)融入产品的少数几家公司之一。
视频发布两周前,Figure则宣布完成了6.75亿美元的B轮大额融资,投资人包括亚马逊创始人贝索斯,以及微软、英伟达、OpenAI等。投后公司估值已飙升至26亿美元。
落地上,Figure早在1月就已宣布与宝马达成协议,将其人形机器人引入宝马制造工厂。
Phoenix Gen7:人类速度,手部灵活,自主完成任务
不过,也许是为时尚早,Optimus Gen2虽然有一双巧手,但在交互、智能方面,还没有展现Figure般的实力。
但加拿大的机器人公司Sanctuary AI的人形机器人Phoenix,真称得上“心灵手巧”。
当地时间4月25日,Sanctuary推出第七代Phoenix。
这次发布,距离此前的第六代推出不到12个月,距离第五代不到16个月。
目前第七代还没有公布太多场景案例。但第六代的许多演示已经给我们带来震撼。
具体来看,Phoenix身高1米7,重70kg,能举起重达25kg的物体。
Phoenix亮点之一在于其灵活的手指。在第七代发布前,官方一直在油管上更新一个“机器人干活(Robots Doing Stuff)”的栏目,展示了机器手的丰富场景。
4月最新名为“动作和人类一样快”的视频中,Pheonix可自主按照颜色给物体分类,将每个对象分置在左右两侧。
除了手部,Phoenix搭载的Carbon AI 控制系统,能模仿人脑中的子系统,例如记忆、视觉、声音和触觉。Sanctuary表示,Phoenix的设计上采取更通用的路径,“有机会执行一切人类能做的任务”。
Sanctuary更多也想把Phoenix定义为“人类努力的拓展工具”——有人类可以直接操控,也能监督、训练,并展示了在各种环境下完成任务的能力。
尽管官方自称第七代已经是“与人类最相似的系统”,但很明显,很多任务还要在特定环境才能完成。
落地方面,4月11日,Sanctuary AI也宣布与国际汽车零部件供应商麦格纳合作,为麦格纳的工厂配备通用人工智能机器人。麦格纳总部也位于加拿大,客户包括奔驰、宝马、法拉利等。
2022 年 3 月,Sanctuary 在 A 轮中融到 5560 万美元,随后又于 2022 年 11 月从加拿大政府战略创新基金,筹到3000 万加元,2024年4月,又获得埃森哲战略投资。
今年1月份,Sanctuary 则与英伟达展开合作。目前,已经是英伟达GR00T人形机器人通用模型下的成员之一,在GTC2024上,也可以看到AI具身智能的合作成果。
Apollo:想做机器人领域的iPhone
有的机器人公司场景定位更加垂直,主打劳动力短缺的物流业。机器人研究人员通常认为,该领域的工作重复琐碎,实际上并不适合人类。
2023年9月,Apptronic推出人形机器人Apollo。TA与人类大小相仿,身高1米73,体重73公斤,可在可更换电池上运行约 4 小时。最大有效载荷为25公斤。
官方在视频中主要展示仓储、物流场景。看上去,Apollo能胜任不少搬运、堆垛、分拣相关的工作。
3月,Apptronic 宣布与奔驰建立合作,在工厂里部署Apollo。据报道,奔驰已经在一家匈牙利工厂试用Apollo。
Apptronik表示,虽然自己最初专注于物流和制造业的解决方案,但Apollo是通用机器人,开发合作伙伴能将Apollo的使用扩展到建筑、电子、零售、快递、老年护理等更加丰富的领域。
按照Apptronic的说法,Apollo 是机器人的“iPhone”。
但Apollo尚未实现自主工作。
Digit:在亚马逊物流中心打工
机器人连续工作20个小时后,总算倒在了展会现场。
视频中的机器人新款Digit,来自Agility Robotics。2019年2月,Agility推出人形机器人Digit,并于2020年上市。2023年3月,新版Digit人形机器人推出。
新款身高1米75,体重小于65公斤,最多承载16公斤,采用可充电锂电池供电,续航能力达16小时。
据官网,新版的Digit主打物流工作,用于仓储搬运,未来还计划用于货物卸载、配送等工作场景。
2019 年,Agility与汽车制造商福特合作测试自动包裹递送。
公司与亚马逊早有接触。2022 年,Agility从亚马逊和其他公司筹集了 1.5 亿美元,帮助 Digit 进入劳动力市场。2023年10月,Digit开始了在亚马逊物流中心的“实习”生涯。
亚马逊工作人员介绍,测试正处于“非常非常早期的阶段”,并补充说,“我们正在非常小心地了解,观察其是否适合我们的工作流程。”
这难免引发员工对失业的担忧。但亚马逊认为,希望Digit更好地辅助员工进行工作,其处理的工作只是帮助员工回收空箱子,重复性极高。
NEO/EVE:OpenAI 领投,瞄准家用场景
OpenAI投资的1X,是另一家将大模型与机器人结合的公司。
1X成立于2014年。2022年起,1X就和OpenAI在机器人AI模型方面有所合作;目前,EVE的部分功能就由ChatGPT提供支持。2023年3月,1X获由OpenAI创业基金领投的2350万美元融资,投后估值约为1-2亿美金。
1X已在北美和挪威推出了轮式机器人EVE。
EVE用双轮替代人类的双脚,高1.86米,重86公斤,最高时速14.4公里,承载能力15公斤,续航6小时。
EVE专为工作环境设计,主要用于工业、物流、零售和安全领域,但演示视频也展示了不少家居场景。
就在1月,据Business Insider,1X这次仅靠13张PPT,又拿到了B轮1亿美元的融资。这份PPT的重点便是家用双足机器人NEO。
NEO身高1.65米、重量30公斤、每小时行走速度4公里、每小时奔跑速度12公里、载重20公斤、运行时长2到4小时。
流出的概念图,也是日常家务场景。
国内:看中康复、陪伴赛道
智元远征A1:兼顾toB与toC场景
2023年8月,稚晖君创业后跟团队推出首个重磅作品——智元远征A1。
智元远征A1身高1米75,体重55kg,步速7km/h,单臂最大负载5kg。
发布会上,智元远征A1的双足行走速度不快,但也算很稳了。
官方也注意到发布会上机器人的“步履蹒跚”,发布会后不久就放出视频,展示了优化成果。可以看到,进步神速。
据官网,智元远征A1将逐步应用于柔性智造、交互服务、教育科研、特种替身、仓储物流、机器人管家等场景,兼顾toB与toC。
官方宣传片中,亮出了很多具体使用场景,主打“工厂与家庭的全能新伙伴”。
值得一提的是,远征A1也搭载智元自研的巨身多模态大模型——WorkGPT,让机器人拥有理解用户意图、感知环境、编排任务的能力。
稚晖君2022年12月离开华为,2023年2月成立智元机器人,成立仅3个月就晋升为“独角兽“,知名投资方包括高瓴创投、BV百度风投、奇绩创坛、经纬中国等。
2024年3月底,公司又新增股东红杉中国、M31资本、上汽创投——三家共同参与智元机器人新一轮融资。此前消息流出,智元机器人投前估值已达70亿。
智元成立不久,就能做出如此成就,结合各方投资热度来看,未来确实可期。
H1:能跑能空翻,被踹也不会摔倒
宇树科技发布的H1全尺寸通用人形机器人,号称“国内第一台能跑的全尺寸通用人形机器人”。
H1配置了360°全景深度感知,行走速度大于1.5m/s,潜在运动能力大于5m/s,整机重量约在47kg左右。其每秒3.3米的速度在平面上快速行走,还创造了一个全尺寸仿人机器人的新世界纪录。
即使被踹,H1也能很快找回平衡,不会摔倒。
H1也是世界上第一个在没有液压系统的情况下,完成后空翻的人形机器人。
文首进度图的制作人Cern Basher曾疑惑,中国的机器人公司都聚焦机器人行走,可他认为“行走”对完成有用的工作过程来说并不重要。
但结合宇树主打的落地场景,行走并非没必要。杭州亚运会上,靠着捡铁饼、运标枪出圈的机器狗,便是来自宇树。
据官网,2017年,公司就开始推进高性能四足机器人的行业落地应用,被广泛应用在农业、工业领域,以及特定的安防巡检、勘测探索、公共救援、医疗防疫陪护等。
在应用场景方面,创始人王兴兴2023年8月接受采访时曾表示,争取未来几年能直接将H1落地到工业和服务业。虽然H1还没有具体的落地方向,但在四足机器人领域积累的经验及优势,或许会为H1带来不少机会。
GR-1:或成为独居老年人的伴侣
2023年7月,傅利叶智能正式发布自身首款通用双足机器人产品GR-1。
这款人形机器人高 1.65 米,重 55 公斤。它可以承载 110 磅的负载。
Fourier GR-1 人形机器人能够以 5 公里/小时的速度行走。
除了物理功能之外,GR-1 还能够根据情况表现出快乐、悲伤、愤怒或惊讶等情绪,并进行自然语言处理和语音识别。
傅利叶智能自成立以来,康复机器人就是研发生产的重点。正如傅利叶智能集团副总裁兼首席战略官Zen KOH 设想,GR-1在未来可以充当护理人员、治疗助理,甚至是独居老年人的伴侣。
GR-1的设计目的在于实现自我平衡行走,让患者转移过程中稳定且安全。但傅利叶的工程师还为GR-1配备了坐下、站立甚至跳跃的能力,将其潜在应用扩展到医疗保健之外。
据官网介绍,GR-1在接待引导、安防巡检、工业制造、医疗康复、科研教育、家庭服务等场景都具有较大的应用潜力。官网目前已开放购买咨询。
英伟达:做具身智能的通用基础模型
如此之多的人形机器人公司的出现,又让英伟达嗅到了背后巨大的商机。作为人工智能时代最大的行业赋能者,英伟达虽然不会直接下场做机器人,但一定会切一块最大的蛋糕。
当地时间4月17日,黄仁勋参加了由美国大型芯片软件公司Cadence举办的CadenceLIVE 2024大会。他预测,人形机器人制造成本可能会比预期要低,“也许不会高于一万到两万美元”。
而在3月GTC大会上,英伟达就已经介绍了的自己布局——GR00T。相当于要做一个具身智能的基础模型,让AI和机器人技术相融合。
GROOT模型使机器人能够理解多模态指令,如自然语言、视频和演示,并执行多种任务。
△GROOT基于英伟达深度技术堆栈开发
在其Isaac Lab中进行模拟,类人学习,在OSMO上训练、编排系统,用于扩展模型,最后将学到的能力直接转移并部署到Jetson Thor芯片上。通过GROOT提供动力的机器人将能理解自然语言,并通过观察人类动作模仿运动,快速学习协调性、灵巧性和其他技能,以便在真实世界中导航、适应和互动。
英伟达曾表示,该项目正在与多家仿人机器人公司合作,包括Boston Dynamics、Figure AI、Fourier Intelligence、Sanctuary AI、Unitree Robotics和XPENG Robotics,许多在前文都有所提及。
对于大多数通用机器人公司来说,英伟达提供的平台可以理解为一个“LLM+机器人”的解决方案,而每个公司可以根据自己产品的特点,嫁接入这个平台,获得多模态的感知和通用智能能力。
据悉,英伟达在机器人领域的商业合作伙伴,包括宣传将破土世界首个人形机器人Agility Robotics,与NASA和奔驰合作的Apptronik,波士顿动力、Figure AI等。而在国内,英伟达合作伙伴还包括小鹏旗下鹏行,宣布量产接受预定的上海傅里叶智能,以及前面提到的宇树科技。