2024,人形机器人似乎已经站在了技术与梦想的十字路口。
炒虾、叠衣服、煮咖啡,做家务……这一切似乎都预示着,以往科幻片中那些 要干嘛就干嘛的机器仆人,似乎真的走进现实了。
想象一下,周末你刚睡醒,一个高科技的人形机器人走了进来,端着杯热腾腾的咖啡走到了你面前。
听起来像是科幻片里的桥段,对吧?但今年一月,Figure公司的一款煮咖啡机器人Figure 01,让这样的片段成为了现实。
在看了10小时的人类演示视频后,该机器人可以自主打开咖啡机盖,放入咖啡包,按下开始按钮,一气呵成地完成整个煮咖啡过程。
难得的是,当咖啡包没放准时候,它甚至还会自动纠正。
而在这类“细活“上,国产机器人也显现出了不俗的实力。
例如去年智元机器人的远征AI,就在演示中展示了多个生活化的应用场景。
例如在厨房里打个鸡蛋什么的。
给家里老人端茶送水什么的,也不在话下。
即使是在实验室里制备样本这样的精细操作,也照样手到擒来。
同样地,在2023世界机器人大会上,一个名叫MagicLab的国产人形机器人,也十分娴熟地演示了咖啡拉花手艺:
其动作之流畅、自如,实在让人感动。
除了这种需要灵巧和精准度的操作外,某些很需要“力量”的场景,人形机器人也开始崭露头角。
例如波士顿动力的机器人,在搬运物体方面就是目前的行业翘楚。
瞧这矫健的身手,提着重物一路小跑上楼梯,过独木桥,也完全不带含糊的。
到达目的地后,还十分聪明地来了个回身跳,用转身时的惯性将包甩到了高处。
凡此种种,无不让人惊呼:“卧槽!难道科幻片就要成真了?”
那么,为何人形机器人,会在2023集中地涌现出各种“惊喜”?种种华丽的技术奇观背后,人形机器人,真的要从科幻走进现实了吗?
01
变革之年
如果要论2023年,人形机器人最大的变数是什么,哪恐怕就是AI大模型的应用。
从物理维度上说,人形机器人由三个模块组成,分别是“肢体”“小脑”和“大脑”,而大模型的出现,相当于给人形机器人换了个“大脑”。
而这,也是机器人具备自主感知和决策能力的关键。
换句话说,以后人类想让机器人学一种新活,只需要让它观察人类的范例,并在实践中不断从错误中学习,逐步提高自己的技能即可。
而这在大模型没出现之前,是不可想象的。
从总体上而言,人形机器人的发展,大致分为了“仿人”、“类人”、“真人”三个阶段,当前处于“仿人”并走向“类人”阶段。
在仿人阶段,人形机器人执行任务,通常依赖于预先编写的程序和有限的自动化技术。
试想一下,倘若你想让机器人帮你进厨房里炒菜,机器人的每一个动作,如切菜、搅拌、烹饪等,都需要事先进行详细的编程。
这些编程指令包括如何移动机械手臂、如何控制力度、速度等各种参数的具体信息。
程序之外的情况(比如今天的肉更难切一些),机器人都可能无法有效地应对。每遇到个新情况,你就得重新编程,告诉机器人该怎么做,这多不方便啊……
那大模型是怎么解决这一问题的?
具体来说,现阶段大模型训练机器人的方式主要有两种:多模态学习、端到端学习。
所谓多模态学习,利用视觉语言模型(VLM)进行场景理解,将描述输入至大型语言模型(LLM)以得到自然语言指令,来让机器人完成各种动作。
这方面比较突出的代表,是DeepMind的RT-2模型(Robotics Transformers)。
通过这个模型,机器人可以从网络和机器人数据中的各种视频中学习,并将学到的知识转化为机器人控制的通用指令。
具体来说,这个系统就像是给机器人装上了一套高级的大脑和眼睛。首先,它的眼睛(VLM)能看懂周围的环境,比如看到桌子上有个杯子,知道杯子在哪里,长什么样。
然后,它的大脑(LLM)会根据眼睛看到的信息,通过编码器-解码器结构,将图像特征转换成语言描述,用人类的语言来描述这个场景,比如“拿起杯子”。
最后,这个大脑还会告诉机器人怎么动,比如怎么伸手,怎么用力,确保机器人能正确地把杯子拿起来。
不过,在具体控制机器人时,RT-2本身并不直接获取或调整机器人硬件的具体参数,如电机的电压或电流。这些硬件参数的调整通常由机器人的控制系统负责,而RT-2模型提供的是高层次的动作指令。
在实际应用中,这些指令会被机器人的控制系统解析,并转换为具体的硬件控制信号,以驱动机器人执行任务。
端到端学习,就是试图直接从输入(如传感器数据、图像、视频等)到输出(如动作、决策等)构建一个完整的模型。例如之前提到的煮咖啡的Figure 01 机器人,就是一个明显的端到端学习的例子。
在这个过程中,模型会通过观看人类煮咖啡的视频,逐渐学会其中的所有步骤。而要实现这点,最关键的一步,就是模仿学习。
一般来说,模仿学习大致分为如下步骤:
首先,系统通过摄像头录制视频,或直接从人类操作者那里收集传感器数据。
对于某些难以或无法直接获取专家动作数据的场景,例如自动驾驶、医疗手术等,模仿学习甚至能直接跳过后一步,直接通过看视频学会相应的动作。
在具体学习过程中,首先,机器会从观察数据中提取关键特征,这些特征可以是图像、声音、以及物体的位置、运动轨迹、环境布局等。
之后,系统会分析数据,同时开始模型的训练,并将输入数据映射到输出行为。
在这里,数据到动作的映射,可以被视为一种物理上的因果关系。例如,当咖啡机处于特定的状态(比如水温达到一定温度)时,应该执行特定的动作(比如开始泵送水)。
一旦模型被训练好,机器人就可以开始模仿观察到的“因果”。并在实际执行任务过程中,根据反馈不断调整和优化。
可以说,正是由于有了大模型的加持,人形机器人才真正从一个亦趋亦步的“机器”,开始变得像一个会学习和应变的“人”。
一个令人浮想联翩的情况是:既然训练机器人“大脑”(大模型)所需的数据,例如视频资料、案例等,大体上都可以通过公开渠道搜集,那是不是以后人们也能用定制大模型的方式,在家中DIY一个个性化的机器人呢?
02
家庭仆人or工厂能手?
在2022的科幻片《芬奇》中,汤姆·汉克斯饰演的主角,是一个在末日中的幸存者,由于知道自己罹患绝症,他打算用手头的资料和数据,训练出一个知道怎样照料狗子的机器人,以便在自己离世后,心爱的狗子能有个照应。
实际上,这就是一种类似通过大模型来训练机器人的思路。
然而,要想真正实现这种人人皆可DIY机器人的未来,人类还有好几个关键门槛需要跨,其中之一,就是各种“关节部件”的成本。
特斯拉人形机器人Optimus的总BOM(Bill of Materials,物料清单)成本大约为41381美元。其中,关节部件的成本大约为23563美元,占总成本的56.9%。这表明在Optimus的总成本中,关节部件的价值量占比超过了一半。
关节部件的价值量占比高,主要是因为人形机器人需要精确和灵活的关节来模拟人类的运动。这些关节通常包括复杂的机械结构、驱动系统(如电机)、传感器以及控制算法,所有这些都对机器人的性能至关重要。
如此高昂的成本,注定了人形机器人在商业化的最初阶段,不太可能成为普通人的“家庭仆人”,而更适合用于工厂、物流等生产性的场景中。
例如,总部位于加州的人形机器人初创公司Figure 宣布与宝马签署一项商业协议,将在宝马的美国制造工厂部署 Figure 01。
这也是 Figure 自 2022 年成立以来签署的第一个商业协议。公司的人形机器人会被部署到位于南卡罗来纳州的斯帕坦堡工厂,也是宝马在美的唯一工厂。
虽然,自动化流水线用工业机器人是常规操作,但是,这类传统的工业机器人,大多只能按照预先编好的程序,在固定的工位上,进行重复性操作。
例如,虽然欧洲,尤其是德国的KUKA机器人此前就在生产线上表现十分出色,可用于物料搬运、加工、堆垛、点焊和弧焊等工作,但这些操作,都已经是被程序预先编写好的,如果想让其切换到其他工序,就需要重新编程。
这就限制了这类机器人的灵活性、适应性。
而与之相比,有大模型加成的人形机器人,如Figure 01,则可以通过大模型不断适应和学习,切换到任意岗位、工种,因此具有更高的灵活性,能够执行更多样化的任务,尤其适合制造那些按人类活动特点设计的工业品。
在初期阶段,Figure 01只是干一些箱子搬运、拾取和放置、托盘装载之类简单的工作,以及兼顾下其他很少有工人愿干的“苦活”、“累活”,例如在高温或噪音环境下操作等等。
如果达到目标,Figure 01的部署数量将会增加,预计在12-24 个月的时间集成到宝马的制造流程中,包括车身车间、钣金和仓库等工区。
考虑到车身车间、钣金这类流程的性质,Figure 01这样的机器人,除了搬运和装卸外,更可能在其中扮演辅助装配的角色:即帮助工人固定零件,或者在狭小空间内进行操作。
不过,从长远来看,人形机器人在制造业中的意义,可不仅仅局限于干些搬东西的“杂活”。从产业的角度来看,进入汽车生产线的人形机器人,无疑站在了当前产业升级竞争的最前沿。
如果说,当下中美在产业升级方面的竞争,真的存在什么“命门”的话,那这样的命门,一个是代表了尖端技术的芯片,另一个就是代表了制造业“肌肉”的汽车行业。
这是因为,汽车产业是一个典型的“复合型”产业,它不仅包括汽车制造本身,还涉及到零部件制造、销售、服务等多个环节,涉及到巨大的市场,其发展往往可以带动整个供应链的增长,对经济的拉动作用显著。
更重要的是,汽车产业,尤其是新能源为代表的汽车产业,也是一个技术密集型产业,涉及到了人工智能、新能源、机械制造、材料科学等多个领域。
并且,人形机器人与工业机器人、新能源汽车等产业共享许多相似的供应链,如电池、芯片、传感器、控制器等,可以实现供应链的协同迁移。
可以说,汽车行业的兴衰,从一个剖面,预示了某个国家将来工业能力/制造业的强弱。
不巧的是,在这个关键的节点上,美国目前掉链子了,而人形机器人,将是唯一有可能进行破局的变数。
03
制造业回流?
从表面来看,人形机器人对制造业最粗浅的“作用”,就是取代那些对工资“永不满足”的打工人。
去年9月15日,美国汽车工人联合会(UAW)与通用汽车、福特汽车、Stellantis的合同到期,双方未能就新合同达成一致,UAW联合三大车企工人发起一场罢工。
除了提高工资,缩短工时这些基础要求外,罢工的核心诉求,其实还是消除转型电车带来的失业风险——因为生产电动车比传统汽车需要的人力更少。
这时,一个十分尖锐的矛盾就凸显了出来:美国想重振实体制造业,让制造业回流,并进行产业升级,可架不住国内工人总是闹着要涨工资,利润都给工人发工资了,哪还有钱产业升级?
那美国工人怎么就这么爱闹呢?
背后的真正原因,是这几年美国的通胀太高了,涨出来的那点工资,总是会被物价淹没,于是工人只能一个劲儿地要求涨涨涨。
有数据显示,美国通胀率在2023年达到了6.8%,创下了近40年来的新高,其中牛奶价格较2019年上涨29%。
而美国通胀率节节高升的背后,其实暗藏了美国重振制造业与进行金融收割之间,存在一个无法协调的结构性矛盾。
具体来说,为了应对自疫情以来的经济衰退,也为了重振制造业,美国需要实施宽松的货币政策,如降低利率,以降低生产成本和刺激投资。
然而,为了维持美元的全球吸引力,美国却要采取相反的政策——加息,以吸引外国投资者持有美元资产。
因为加息就像是银行提高了存款的利息,所以人们更愿意把钱存到美国,同时,大家都想买美元,因为预期美元会升值,这样将来卖掉美元能赚更多。这样一来,全球的钱就都往美国跑了,因为大家觉得在美国投资更划算。
于是,鱼和熊掌不可兼得的局面就出现了。
而这时,不断高涨的工人工资,也在其中起到了推波助澜的作用,并加剧了这一矛盾。
虽然加息会让美元升值,但借钱时的利率高了,企业制造东西的成本变高,相应的物价也会上涨,工人看到物价上涨,就要求加工资,但这样一来,工厂的成本就更高了,就更不愿意在美国生产东西了,因为不划算。
可以说,人类工人这个“不稳定存在”,已经成了美国资本家“一边想用加息收割全球财富,一边又想让制造业回流”的最大阻碍。
而打破这一循环的可能,就是人形机器人。
就目前来说,一台人形机器人售价大约在2~3万美元,而美国一个汽车产业工人年薪在7.5万美元。
由于人形机器人的介入,会在一定程度上削弱工会谈判和议价的能力,从而得以让美国在保持货币强势的同时,踉踉跄跄地继续制造业的“复兴”。
更进一步,当美国真正做到了让制造业回流(哪怕只是部分),并跨越了“创造”与“制造”的鸿沟,那么凭借新生产技术的普及,以及美国独有的科研生态,其在全球产业链中,将获得难以复制的竞争优势。
04
被机器包围
具体来说,目前的美国,在科研环境和土壤上,确实存在着一些领先其他国家的优势,例如:
——成熟的风险投资市场和鼓励创业的文化;
——严格的知识产权法律体系;
——由顶尖大学、研究机构、风险投资和创业文化共同构成的创新生态系统;
——开放的移民政策和对全球人才的吸引力。
只不过,长期以来,由于世界市场的秩序始终被美国所把持,因此其并不屑于通过比拼数量和造价去占领中低端市场,而是悠哉地坐在高位,靠少数高附加值的核心技术坐收其成。
而今世界格局渐变,美国发现原来那套国际分工体系玩不转了,中国这样的国家,开始不满足于一直做低端代工厂,要挑战其高端制造业。
这意味着,美国也要面临同态竞争了。
而在同态竞争中,若双方产品相近,获胜的关键就是规模和造价。这点已经在历史中得到了验证。
在200多年前的拿破仑战争中,为从经济上拖垮英国,拿破仑对英国进行了全面的“大陆封锁”,禁止一切欧洲国家与之进行贸易,想将英国活活困死。
可结果,英国还是活了下来。
原因很简单,当时的英国经过了工业革命,生产力大幅提升,生产出来的商品价格极其低廉。虽然有禁令,但是其他国家受不了“低价商品”的诱惑啊!
于是,在经济规律的驱动下,欧洲各国的走私逐渐泛滥,大陆封锁政策名存实亡。
回看今朝的中美竞争,格局是不是很相似?
有了这样的前车之鉴,中美两国都明白价格和规模的重要性。而为了占据这两个制高点,在将来的产业竞争中,双方需要比拼的,就不只是产品本身的价格,还要比拼制造产品的工具的价格。
而在智能化的时代,这样的“工具”,就是进入工厂和车间中,与人类协作,甚至完全取代人类的人形机器人。
凭借着大模型赋予的自主学习和适应能力,以及日益灵巧的肢体,人形机器人在工业制造中将有可能做到“一机身兼数职”,并在不同工种间任意切换。而这无疑在生产中,节约了大量的人力和时间。
刚才提到,在中国的挑战下,美国的高端制造业有被倾覆的风险。那如何让世界回到之前美国主导的分工体系中呢?
一个最绝的办法,就是釜底抽薪,用人形机器人这类自动化技术,挖掉中国制造的根(物美价廉)!在大幅降低产品价格的同时,向全世界大量出口美国制造的廉价机器人,使其他产业链不完备的国家,继续对美国产生依赖。
类似的操作,美国已经践行了一次,那是在上世纪的20年代,福特通过引入流水线生产方式,实现了汽车制造业的革命性改变,并用这样的生产方式,让后来的美国成为了头号工业强国。
可以说,人形机器人就是未来的福特生产线。在那个被机器包围的世界中,谁拥有成本更低,规模更大的机器人,谁就将在产业竞争中占尽优势。
05
中国的应对
综上所述,在将来人形机器人的竞争中,谁能率先把价格打下来,谁就将占据先发优势。
幸运的是,中国在这方面,已经显现出了相当的成就。就目前来看,人形机器人的成本,正从原来的六七十万,逐渐向人民币20万元甚至更低靠拢,几乎是此前的三分之一。
而这样大幅的成本下降,背后原因,则是某些关键零部件的国产化。
就目前来说,人形机器人相当大的一部分成本,大都出在其复杂且数量众多的关节部分。以 特斯拉的 Optimus 为例,人形机器人从上到下包含 28 个关节,分布情况为肩关节 6 个, 肘关节 4 个,腕关节 4 个,腰关节 2 个……
其中每一个关节,造价都在几千到上万元不等。
此外,要想驱动这些关节自如运动,机器人还需要电机驱动等关键零件,它是机器人的关节能够旋转或移动的关键,类似于人类身上的肌肉和肌腱系统。
在这些部件上,国产人形机器人降低成本主要有两大途径:一是通过规模化的量产,导致单个机器人的生产成本降低。二是通过自研关节、驱动器、减速器等关键零部件,降低海外采购的成本。
而在自研方面,目前做得比较突出的国产企业,主要有智元机器人的远征A1、开普勒的先行者系列,以及傅利叶智能的GR-1通用人形机器人。
以远征A1为例,其灵巧手拥有 12个主动自由度,5个被动自由度,采用驱动内置。另外还有配有基于视觉的指尖传感器,可以分辨操作物的颜色、形状、材质等,其灵巧手的整体成本低于1万元人民币。
在这里,自由度是指机器人的运动能力,也就是机器人能够独立控制的运动变量的个数。
自由度越高,机器人的运动越灵活,越能适应各种复杂的环境和任务。
目前,远征A1的自由度超过了49个,手部有12个主动自由度。
而除了关节部分外,协同操作算法,也觉得了机器人能力的强弱。
协同操作算法在人形机器人中的作用,可以比喻为人类的大脑和神经系统。
就像大脑负责思考、决策和协调身体各部分的动作,协同操作算法负责处理来自传感器的信息,制定行动计划,以完成复杂的任务。
具体来说,人形机器人的“眼睛”所代表的视觉处理系统,“大脑”所代表的决策系统以及“双手”的执行系统。
如何通过协同算法,让不同控制系统更流畅、数据运转效率更高,就成了人形机器人能做什么工作的关键。
而在这方面,国产企业开普勒自研了星云系统,让机器人实时感知周围环境,解决看、感知的问题。
具体来说,其通过在机器人中内置3D视觉相机,搭载了麦克风阵列,以及大量压力传感器、姿势传感器等方式,可以让机器人明确自己的状态以便执行下一步操作。
就目前来说,通过一系列自研技术的追赶,国产人形机器人在造价方面,已经达到了与特斯拉等明星企业并驾齐驱的地步。
机器人创企开普勒机器人提及计划将人形机器人计划将价格控制约为2~3万美元(折合人民币14~21万元)左右。智元机器人预估未来其首款人形机器人远征A1的制造成本将会被控制在20万元以内。而特斯拉“擎天柱”人形机器人成本预计在2万美元(约合人民币14万元)左右。
可以看出,国内人形机器人对美国企业咬得很紧,在将来规模化量产阶段,双方必定会有激烈的交锋。
总体上来说,目前在人形机器人的竞争上,美国的优势主要集中在对前沿技术的风投上。
专注前沿技术的初创公司提供了丰富的资金来源和投资机会。例如,美国初创公司Figure在成立仅一年后,就获得了7000万美元的A轮融资,
同样地,名为1X Technologies的机器人公司,在2023年3月完成了A2轮融资,其中OpenAI创业基金领投,融资额达到2350万美元。今年年1月,1X Technologies又完成了1亿美元的B轮融资。
这种对初创企业动辄数千、上亿美元的风投,在中国是很罕见的。
而相较之下,中国则在产业政策支持方面更具优势。其核心逻辑本质上与新能源车产业的政策很相似,都是对路径已经明确的技术难点进行集中攻坚,加速技术的成熟和产业的规模化发展。
例如,《人形机器人创新发展指导意见》,鼓励和支持人形机器人的关键技术领域进行研发,如“大脑”(人工智能)、“小脑”(运动控制)和“肢体”(机械臂、手和腿足)等。
因此,综合来看,在人形机器人领域,“美国搞高端”、“中国降成本”的态势,将会是一种长期的态势。
不过,除了上述因素外,在人形机器人普及的过程中,有一个不可避免的问题,同样影响着这场产业竞争的成败:如何在机器人在各行各业的应用日益广泛,许多传统岗位可能会被自动化技术所替代。这必然会触及到社会结构、就业市场和人类生活方式的根本变革。
如何在机器人与人类劳动力之间找到平衡,确保技术进步的同时,社会能够平稳过渡,成为了除了技术、资本和政策之外,一个不容忽视的“软性因素”。
毕竟,机器只是一种手段,而人才是目的。