为什么大模型到现在还没出现太多实际应用?问题可能出在硬件上。
近日,传闻中的“iPhone杀手”AI Pin终于发货了。不出意外地,它没能躲过“出道即巅峰”的命运。
不说“慢、笨、错”这种常见“人工智障”问题。其中一条用户反馈直接让我笑拥了:“AI Pin的优点是可以与手做互动,但它也只能与手互动。因为激光只能投在掌心,不能投到桌子或墙上。”
更绝的是,因为AI Pin的投屏距离固定,用户可以领取“老花眼”体验卡。
具体操作:1、举起手臂,摊开手掌,进行上下左右移动,让AI Pin找到你的手掌;2、找准后,输入4位开机密码,平均耗时约5秒;3、投屏面积取决于你的手掌大小,一掌约7 行文本,每行约1~3 个单词。
使用提示!请保持身体与手掌相对静止,如果出现微弱晃动,需要重新开机;请将使用时间控制在3分钟以内,以免过热关机;请在室内使用,室外强光下会发生“投影消失术”。
就这,还要卖699美元,每月再收24美元订阅费?难怪外媒给出《史上首款重磅发布的AI硬件,就是垃圾》这样直白的标题。
总之,本该是亮点的交互却成了最大“槽点”,由Sam Altman投资,“苹果团队”开发的“世界首款AI硬件产品”像是个骗子。
如果AI Pin靠不住,“下一代便携AI硬件”将由谁定义?
01 AI时代的“iPod”
在智能手机“一统天下”前,消费电子市场有过一段“群雄并起”的缤纷时光。
彼时,各类便携式单功能硬件百花齐放:MP3、MP4、游戏机、数码相机,甚至是学习机。消费者们也习惯“一个裤兜装手机;另一个裤兜装iPod”,直到iPhone将以上硬件变成了App。
如今,历史正在重演,一些轮番上台的“原生”硬件试图借助大模型的东风,将用户从智能手机中“解脱”出来。本质上,他们其实是在尝试借着AI对软件的升级改造,造出另一款令人上瘾的屏幕,用新的“坑”去覆盖旧的“坑”。
但是,什么样的交互方式,能替代用户对智能手机的依赖?
首先引起轰动的就是上述AI Pin,由Humane公司开发。没有手机、APP和屏幕,只有半个烟盒大小——重量34g的机身上搭载了骁龙处理器、内置GPT系列大模型,可以通过语音交互,也可以投影在手掌上交互。
在理想状态下,仅仅通过“听”和“看”,AI Pin就能理解用户需求,然后通过AI软件执行任务,宛如AI Agent。
但现实并不理想,根据AI Pin的第一批用户反馈,糟糕的评价包括但不限于“最大作用是看时间”“愚蠢的投影”.......在产品功能上也存在一大堆“槽点”,比如续航能力不佳、只会重复对方说的话、反应不灵敏总是出故障所以“错将玉米糖浆识别为违禁品”。
根据外媒报道,实测人员抓一把杏仁,问AI Pin“这把杏仁含有多少蛋白质”,得到的回答是“15g”,但实际上至少60颗杏仁才能包含15g蛋白质。
外媒评价,如果将AI Pin视为自己的“第二大脑”,那么有一半时间都感觉像是“脑死亡”,在很多问题上,它根本无法给到用户准确的答案。
此外,在实际使用场景中,AI Pin也显得有点“鸡肋”,试想一下,在光线明亮的环境下,谁会顶着强光去观看巴掌大小又凹凸不平的“人肉屏幕”呢?
随后亮相CES 2024的Rabbit R1虽然造型不够酷,但更靠谱。它搭载了一块2.88英寸的触摸屏,不需连接手机,没有内置 App,可以通过SIM卡或WIFI联网独立使用。而且售价仅为199美元,并在发售24小时内,卖出了10000台。
(Rabbit R1)
Rabbit R1的定位是AI Agent,其操作系统Rabbit OS基于LAM(大动作模型)开发。LAM能够让AI学会人类操作APP的方式,并通过与LLM结合,让AI代替人类与APP交互。
因此,Rabbit R1更像一个通用的“APP控制器”,用户不需要手机可以完成很多任务:叫车、放歌、订餐、订酒店,甚至在Midjourney生成图片。
Rabbit R1的早期投资人Vinod Khosla对其“跨APP工作”能力大为赞赏;微软CEO纳德拉更是赞不绝口:“这是继iPhone之后,最令我印象深刻的产品之一”。
但在实际体验中,这些赞美仿佛成了“卖家秀”,真实情况下的“买家秀”又是一回事,槽点之一便是Rabbit R1的反应能力,有的用户实测让它识别菜单,却足足等待数十秒,试想这样的场景如果发生在着急打车回家的寒冷夜晚,在寒风中伫立对着它说一句话要等半分钟,心里阴影面积会有多大。就好像在电影《夏洛特烦恼》中,你问老爷子“马冬梅在哪”,得出的回应是“马什么梅”一样的无力感。
前两者都是为了替代智能手机的“屏幕”,接下来这款受到马斯克“宠爱”的智能硬件更聪明,它不会想着替代手机,而是利用大模型给智能手机的功能添砖加瓦。
它就是近期在Kickstarter上众筹45万美金的桌面机器人LOOI。
LOOI采用“手机+机身”分体设计,内置ChatGPT功能,用以“唤醒”手机的灵魂。例如,当你比OK时,它会自动帮你拍照保存;当你大拇指朝下时,它会表达emo的表情和声音等等。
因为擅长“卖萌”,LOOI俘获了马斯克的心,但它最大的作用好像也只有“卖萌”。虽然它可以成为一个自动追踪的摄像头支架,偶尔担当摄影师;也可以在你不想工作时和你玩简单的动作捕捉游戏。
但这些就像古早“宠物蛋”,提供的都是情绪价值。对了,目前最实用的功能是在你手机没电时,变身为无线充电器。
(LOOI)
总之,概念归概念,无论是Sam Altman看好的AI Pin;OpenAI“第一投资人”Vinod Khosla种草的Rabbit R1;或是最近马斯克转推的“AI宠物蛋”LOOI,更像是“真iPhone”加冕前的众多有趣小玩意儿。
问题一:软件重度依赖大模型。
AI Pin不连手机,意味着其核心价值取决于ChatGPT,Sam Altman本人正是Humane公司的最大股东。
Rabbit R1虽然打着LAM旗号,但扔掉LLM后只能算“漂亮空匣子”;一旦涉及LLM,其产品体验又会大打折扣。
例如,当用户只使用LAM涉及的功能:请求播放一首歌;询问“橙子和橘子区别”,Rabbit R1响应速度在0.5秒以内(AI Pin在6秒左右);而当用户想用LLM搜索最新信息,其响应速度就会慢至7—8秒,涉及视觉信息则会更慢。
LOOI需要连接手机,但它更像ChatGPT的手机附件,你甚至需要为了用它找到一部旧手机,或再买一部手机。要知道,上一届“宠物蛋”可是能独立存活的。
问题二:硬件“鸡肋”,门槛不高。
消费者要如何说服自己在手机之外,再额外携带另一个智能终端?
Rabbit CEO吕骋曾在采访中表示:Rabbit确实可以成为一款APP,但如果Rabbit只是个APP,就意味着苹果公司能接触到代码。此外,当Rabbit被放在和其他APP一样的平台上,会给自己带来不安:如果明天出现了一个更好的APP怎么办?
这段话很坦诚但经不得起推敲,毕竟没有“下一个更好的APP”,也可能出现“下一款更快的AI设备”。
实际上,Rabbit R1更像一个抓住巨头“空窗期”,在短期内走量的产品,且凭借199美元的良心价已经取得了商业成功。Statista数据显示,2024年1月发售的Rabbitr1,前五批已售出约50000 台。第六批现已开放预订,数量为50000件。相比之下,AI Pin标价699 美元,每月24美元的订阅费就显得“吃相”难看。据其创始人透露:订阅费是公司正向现金流的关键。
回到开头,Rabbit R1是AI时代的iPod,但如果iPhone率先变成“AI iPhone”,还需要“AI iPod”吗?
虽然这些基于大模型诞生的“原生”AI硬件槽点满满,但层出不穷的新硬件,说明很多人内心蠢蠢欲动,正摩拳擦掌地想要大干一场,抓住大模型风口,找出能完美承载大模型的新介质。
这些硬件试图摆脱人与手机之间用“手指”划屏的交互方式,更青睐于将人机交互的模式从“触觉”转移成用“视觉”识别、用“听觉”倾听的方式,说白了,其实就是想要造一个像人的大脑,能看得懂、听得懂人类说话,至于能不能长得像人,就看人形机器人的发展程度了。
尽管这些硬件还有点“五感不全”的问题,但是随着技术的进步和提升,还可能不断产生其它令人眼前一亮的创新。
除了“摆脱”手机或者用外在的硬件承接手机,也有另一种创新路线,试图通过完善操作系统,打入手机内部,让手机变得更智能,各家都在尝试做“AI手机”,苹果甚至为此做了一套新的模型。
02 AI手机像“瓶装水”
如果说两周前,AI手机们还是争先恐后的“口号产品”,现在随着苹果最新论文发布,真正的“AI iPhone”将提上日程。
论文提出了一个名为Ferret-UI的多模态模型,能够“看懂”手机屏幕,并将自然语言翻译为界面操作点来执行各项任务。经测试,Ferret-UI在所有基本UI任务中均超过GPT-4V(OpenAI),在高级UI任务中超过Fuyu(Adept)和CogAgent(智谱AI)。
简单来说,当iPhone装载Ferret-UI,Siri(高智商版)就会实现,并像一个真正的AI Agent,代替你穿梭在各个APP之间。
是不是有点眼熟?没错,彼时Rabbit R1的核心功能将被完全覆盖,位置非常尴尬。但它还有用武之地,因为Ferret-UI在Android环境中表现欠佳,留下的还有广袤的Android市场,只是199美元的良心价恐怕还要再降了。
解决了大模型本地部署问题,AI手机的另一座大山就是将大模型塞进手机(非云端部署),其中内存升级迫在眉睫。
据中信证券统计:一个搭载100亿参数大模型的手机约需要14-16GB内存;搭载200亿参数大模型的手机约需要20-24G内存。
目前,高通发布的最新高端芯片骁龙8s Gen 3,支持在手机运行100亿参数的大模型。这意味着:当今年各大手机厂商宣布载入百亿大模型时,“中高配”16G内存将成为“丐版”。
另一个方案是“轻量化”大模型,包括模型裁剪、模型压缩,但如此一来其性能又必然缩水,不如直接探索小模型的潜力。
这方面的赢家还是苹果,其在2023年末发布的一篇论文打破了手机的“内存墙”。
论文提到,苹果通过Flash-LLM技术,成功地在内存有限的iPhone和其他苹果设备上部署了LLM。数据显示,设备能够支持运行的模型大小达到了自身DRAM(处理器)的2倍;LLM的推理速度在Apple M1 Max CPU上提高了4-5倍,在GPU上提高了20-25倍。
总之,有了充足的软硬件准备,苹果还未问世的“AI iPhone”很可能颠覆AI手机竞争格局。
至少从目前看来,三星等手机厂商狂推的AI手机实在不够“AI”。
有品牌装载70亿参数大模型,但具体能干什么呢?实时翻译、图像美化,会议记录.....这些你都可以从现有APP里找到影子,无非是更智能的有道翻译、讯飞听见和美图秀秀。
更“卡脖子”的是,因为没有自研芯片,端侧大模型参数的天花板要看高通的天花板,而这意味着各家厂商狂推的AI手机就像“瓶装水”,除了概念包装,其他区别不大。
诚然,手机作为人人离不开的“器官”,最可能先被AI改造。但下一代AI设备必须是移动计算时代的手机吗?有没有可能直接“升维”到空间计算设备?
03 空间计算设备是“真iPhone”?
在《哈利波特与魔法石》中,邓布利多轻点“老魔杖”,街边路灯即刻亮起。
这就是空间计算,一种虚实融合的“空间魔法”。如果我们将空间计算设备类比为“老魔杖”,一种将现实世界进行数字化改造的“圣器”;那么AI技术就是将一根平平无奇的“木棍”变成“老魔杖”的关键魔咒。
空间计算包含两个阶段:“空间感知”理解真实世界;“空间生成”生成虚拟世界。上届AI小模型已经解决了空间感知;这届AI大模型则专注于“老大难”空间生成。
一方面,高质量虚拟内容的生成,始终制约VR行业:内容生态匮乏——用户不买账——开发者变少——内容更匮乏。
另一方面,VR设备想实现更多功能,缺乏优质的训练数据集。
近期Meta CTO Andrew Bosworths谈到:“文本,我们有整个互联网作为资源。照片,Facebook和Instagram有庞大的图库。但对于3D对象,却没有一个大型、权威的数据库。我们正在努力试图改进这个模态下的一切内容,包括能够导出更多的3D内容。”
如今,Sora的视频生成能力有目共睹;同时,AIGC高质量3D内容也近在咫尺。
高通在《混合AI是AI未来》指出:Stable Diffusion将很快赋能内容创作者在3D物体上生成逼真的纹理。一年内,这些功能会在智能手机上实现,并延伸到XR终端。未来几年,首批文本生成3D和图像生成3D模型将实现边缘侧部署。
既然解法已经给出,AI与空间计算设备的结合将成为下一个兵家必争之地。
首先是软件厂商来“卷”硬件。近期,以“眼光超前”著称的Midjourney撬走了苹果Vision Pro硬件工程经理Ahmad Abbas,协助开发一个收集3D数据,管理3D模型的工具,并在未来推出VR头显。
而原本的硬件玩家则按本机算力体系,兵分三路。
第一类,苹果M系列笔记本级别芯片,对应头显Vision Pro。根据最新消息,苹果M4芯片的生产已经收尾,该系列芯片专注于AI。如果再加持上述Ferret-UI模型和Flash-LLM技术,下一代Vision Pro则足以让人期待。
第二类,高通骁龙系列移动级别(手机)芯片,对应头显Meta Quest。它的功耗低,集成度高,可以做成真一体机(集成化电池),生态有开放潜力(Meta Quest体系尚未开放)。但基础算力在三类体系中“垫底”。其算力bug在“算力为王”的AIGC世界被格外凸显,甚至沦落为不少人眼中的“大厂玩具”。
第三类,“双英体系”:Intel(AMD)CPU+NVIDIA(AMD)GPU,对应PC VR产品。海外Valve Index(主流大众定位)、Varjo(高端高性能定位);国产HTC(主流大众定位)、小派Pimax(高端高性能定位)。
优点是算力最强,可以跑动较大模型;生态开放,可以覆盖几乎所有的场景。缺点是集成度差,只能做分体式PC VR,曾一度被“高通体系”一体机压制。
不过,在AIGC场景下,手握“核心算力”的“双英体系”有望成为最早突破AI硬件的黑马选手。
结语
工具是思维的反映,思维同样是工具的反映。
长期以来,人类渴望从屏幕中彻底解放出来,如今AI增加了人类世界的“智慧”,却找不到一个盛放智慧的容器。
Humane将AI Pin定义为人们的“第二大脑”,通过硬件和人、环境的创新交互,来获得类似智能手机的体验。
这个定义适用于任何成熟的AI硬件,却不适用于“半成品”AI Pin。
AI手机、AI PC,AI加持的空间计算设备,还是“成熟版”的AI Pin.....虽然我们不知道下一代AI设备最终由谁定义,但可以肯定的是一个生机勃勃的AI硬件新时代正在到来。