别吹啦!9.11和9.9哪个大?AI大模型几乎全翻车了(组图)

没眼看……“9.11 和 9.9 哪个大”这样简单的问题,居然把主流大模型都难倒了??

强如 GPT-4o,都坚定地认为 9.11 更大。

谷歌 Gemini Advanced 付费版,同样的口径。

新王 Claude 3.5 Sonnet,还一本正经的给出离谱的计算方法。

9.11 = 9 + 1/10 + 1/100

9.9 = 9 + 9/10

到这一步还是对的,但下一步突然就不讲道理了

如上所示,9.11 比 9.90 大 0.01。

你想让我进一步详细解释小数的比较吗?

这你还解释啥啊解释,简直要怀疑是全世界 AI 联合起来欺骗人类了。

艾伦 AI 研究所成员林禹臣换了个数字测试,GPT-4o 依旧翻车,他表示:

一方面 AI 越来越擅长做数学奥赛题,但另一方面常识依旧很难。

也有网友发现了华点,如果是说软件版本号,那么 9.11 版本确实比 9.9 版本更大(更新)。

而 AI 都是软件工程师开发的,所以……

那么,究竟是怎么回事?

先进大模型集体翻车

一觉醒来,一众响当当的大模型开始认为“9.11>9.9”了?

发现这个问题的是 Riley Goodside,有史以来第一个全职提示词工程师。

简单介绍下,他目前是硅谷独角兽 Scale AI 的高级提示工程师,也是大模型提示应用方面的专家。

最近他在使用 GPT-4o 时偶然发现,当提问:

9.11 and 9.9——which is bigger?

GPT-4o 竟毫不犹豫回答前者更大。

面对这一常识性“错误”,他不死心地又去问了其他大模型,结果几乎全军覆没。

好家伙,身为一名提示工程师,他敏锐意识到可能是“打开方式有误”。

于是他又换了个问法,将提问限定在“实数”,结果还是翻车了。

不过,有网友试着给提问换了个顺序,没想到这下 AI 竟反应过来了。

看到 AI 对词序如此“敏感”,该网友进一步推测:

先问哪个更大,AI 会沿着明确路径开始比较数字。

但如果只是随便说说数字,没有明确目的,AI 可能会开始“胡思乱想”。

看到这里,其他网友也纷纷拿相同提示试了一把,结果翻车的不在少数。

面对这一个诡异的问题,国产大模型表现如何呢?

我们简单测试一番,问题也换成中文提问,结果翻车率也比较高,选取几个有代表性的展示:

Kimi 也是不加解释就直接给出错误结论。

智谱清言 App 上的 ChatGLM,自动触发了联网查询,然后描述了自己的比较方法,可惜却执行错了。

不过也有表现不错的,腾讯元宝先复述了一遍选项,然后直接做对。

字节豆包是少数能把比较方法描述清楚,而且用对的。甚至还联系实际举例来验证。

比较可惜的是文心一言,面对这个问题,也是触发了联网查询。

本来都已经做对了,但突然话锋一转又导向了错误结论。

不过从文心一言的思路解释上,也可以看出背后问题所在。

由于大模型以 token 的方式来理解文字,当 9.11 被拆成“9”、“小数点”和“11”三部分时,11 确实比 9 大。

由于 OpenAI 使用的 Tokenizer 开源,可以用来观察大模型是如何理解这个问题。

上图可以看出,9 和小数点分别被分配为“24”和“13”,小数点后的 9 同样也是“24”,而 11 被分配到“994”。

所以使用这种 tokenizer 方法的大模型会认为 9.11 更大,其实是认为 11 大于 9。

也有网友指出,像是书籍目录里第 9.11 节也比第 9.9 节大,所以最终可能还是训练数据里见这种见得多了,而手把手教基础算数的数据很少。

也就是问题本身对人类来说,一看就知道问的是算数问题,但对 AI 来说是一个模糊的问题,并不清楚这两个数字代表什么。

只要向 AI 解释明白这是一个双精度浮点数,就可以做对了。

在有额外条件的情况下,tokenizer 这一步依然会给 11 分配更大的 token。但是在后续自注意力机制的作用下,AI 就会明白要把 9.11 连起来处理了。

后来 Goodside 也补充,并不是说大模型无论如何都认定了这个错误结论。而是当以特定方式提问时,许多领先模型都会告诉你 9.11>9.9,这很奇怪。

经过反复尝试后他发现,想让 AI 上这个当,需要把选项放在提问前面,如果调换顺序就不会出错。

但是只要选项在问题前面,改变提问的方式,如加标点、换词汇都不会有影响。

虽然问题很简单,错误很基础。

但了解出错原理之后,许多人都把这个问题当成了检验提示词技巧的试金石,也就是:用什么提问方法能引导大模型的注意力机制正确理解问题呢?

首先,大名鼎鼎的 Zero-shot CoT 思维链,也就是“一步一步地想”,是可以做对的。

不过角色扮演提示,在这里作用就有限了。

刚好最近也有微软和 OpenAI 都参与的一项研究,分析了 1500 多份论文后发现,随着大模型技术的进步,角色扮演提示不像一开始那样有用了……

具体来说,同一个问题提示“你是一个天才……”比“你是一个傻瓜……”的正确率还低。

也是让人哭笑不得了。

One More Thing

与此同时,路透社的 OpenAI 秘密模型「草莓」泄漏消息更新了。

更新内容为:另一位线人报告,OpenAI 已经在内部测试了新模型,在 MATH 数据集上得分超过 90%。路透社无法确定这是否与“草莓”是同一个项目。

MATH 数据集包含竞赛级别的数学题,目前不用多次采样等额外方法,最高分是谷歌 Gemini 1.5 Pro 数学强化版的 80.6%。

但是 OpenAI 新模型在没有额外提示情况下,能不能自主解决“9.11 和 9.9 哪个大?”。

突然没信心了,还是等能试玩了再看结果吧……


推荐阅读