北京时间12月6日凌晨2点,科技圈现在最会营销的OpenAI正式开启了他们的“Shipmas”产品发布季。
这明显是受到圣诞日历(Christmas Calendar)传统启发的12天连发活动。就像小朋友每天打开圣诞日历上的一个小格子期待惊喜一样,OpenAI要给全球科技圈每个工作日都送上一份“圣诞礼物”。
在今天的发布会上,Sam Altman亲自承认,公司将在工作日陆续发布新产品和功能更新。
开门红就放大招,OpenAI带来了两个重磅更新:o1模型的满血正式版和堪称“顶配版”的ChatGPT Pro订阅计划。
这简直就是给这两天疯狂发布新品的谷歌贴脸送“圣诞惊喜”。
现在就让我们一起拆开圣诞礼盒的第一格吧。
满血o1模型:完全态确实不一样
发布会开始,Sam Altman先提到了新版o1在处理复杂问题时的重大错误率降低了34%,而且能根据题目的难易程度调节处理时间,困难的题可能做几分钟,但简单题目仅需几秒。这使得用户等待时间下降超过50%。
Sam Altman紧接着给出了它的表现数据。o1在国际数学奥林匹克预选赛题目(AIME 2024)中拿到了83%的正确率,把GPT-4o那可怜巴巴的13%甩得连尾灯都看不见了,比起o1 preview的56.7%也提升了将近一半!
而在编程能力测试(CodeForces)方面,o1同样展现出强劲实力。从GPT-4o的11%跃升到89%。绝对算得上从入门级直接涨到架构师水平。同样比o1 preview提升一半。
特别值得一提的是,在处理博士级科学问题(GPQA Diamond)时,o1超越了人类专家的表现,达到78%的准确率,而人类专家的水平为69.7%。不过比较奇怪的是,在这一项上,o1的表现似乎还不如o1 preview。
更重要的更新是:o1现在也支持多模态识别了。
在发布会现场,o1的负责人直接手绘了在太空中收集太阳能,以供太空数据中心使用的一套系统草图让o1识别。
因为太空中没法水冷,因此散热需要靠一张巨大的散热片。研究员让o1去计算,如果要给的数据中心供给1 GW的电,它需要多大的散热片才能保证GPU阵列的正常运作。
o1完全准确的识别和理解了图片的内容,并经过了超过3屏的精密分析和计算,给出了正确答案——需要242万平方米的一块巨大散热片才够。
而回答这个问题仅仅用了o1 10s的时间。
可以预见,多模态支持技能一解锁,o1的实用性暴增。医生可以用它分析医学影像,工程师能让它帮忙看图纸,设计师还能让它提供创意建议。
另一道现场测试题则更为复杂:OpenAI的研究员要求o1找到一种符合六个标准的特定蛋白质。
这个问题的挑战在于,需要模型回忆起相当专业的化学领域知识,而对于任何给定的标准,可能会有数十种蛋白质符合该标准。所以模型必须全面考虑所有候选者,然后检查它们是否符合所有标准。
这一问题需要大量思考和排查的问题,o1花了63s做对了。
除此之外,在安全性测试中,o1拿下了84分的高分,比起GPT-4o的22分也有了质的飞跃。看来,OpenAI在让AI既聪明又“懂规矩”这件事上没少下功夫。
o1新模型今日起将面向 ChatGPT Plus 和团队用户开放,而企业和教育用户则从下周开始可使用。
ChatGPT Pro:200美金/月
买个稳定发挥
如果说o1的升级是意料之中,那么月收费200美元的ChatGPT Pro可就真的让人倒吸一口凉气了。虽然之前一直有传闻提到OpenAI会推出200美元收费的套餐,但这个价格过高,业内很多人并不相信。
不过看数据,它确实是目前AI模型界的“旗舰”。
在这个套餐里,OpenAI 提供了最强的o1 pro mode。按Sam Altman自己的解释,这个模式会让o1处理非常难的题目时,获得更多算力和能量。
这听起来似乎才是o1的真正完全体——不卡算力的情况下的o1。
在一般测试中,o1 pro 模式在国际数学奥林匹克预选赛题目(AIME 2024)中,正确率达到了86,超过了o1版本的78。
在编程中它和o1相当,但在处理博士级科学问题(GPQA Diamond)时有5%左右的优势。
纸面上看,这点性能提升似乎并不值得大家每个月多花180美元去升级成Pro版本。
但为了展示o1 pro mode的强大,OpenAI还专门设计了一套极其严格的“四次测试”评估:模型需要连续四次都答对同一个问题才算通过。在这种严苛条件下,o1 Pro模式依然保持了相当高的可靠性:在竞赛数学中达到80%,编程测试中达到74.9%,科学问题中达到74.2%。远超普通版o1。这说明o1 pro能提供更佳的稳定性和一致性,这对于需要AI协助完成重要工作的专业人士来说,无疑是一个重要保障。
ChatGPT Pro版客户还能享受到完整的GPT-4o访问权限:无限使用,不用排队。
未来可期:更多惊喜在路上
这还只是12天发布计划的首日。
不得不说,OpenAI这波“圣诞营销”节奏掌握的不错,第一天就放出了业内预测会在这十二天发布的最重要的产品之一 —— “满血版”o1。这力度,肯定能勾起大家对于接下来的11个天更新的好奇心。
不过有一点是肯定:今年的AI圈注定要在这个寒冬里进入搏杀状态。谷歌可能会发Gemini 2,Anthrophic据说也会有新模型将在圣诞前上线。
对整个AI圈而言,今天仅仅是个开始。
在直播的最后,OpenAI的研究员讲了个圣诞冷笑话:圣诞老人试图让他的大型语言模型解决一个数学问题,他非常努力地提示它,但就是不行。他最终是怎么解决的呢?他用的是reindeer enforcement learning(驯鹿加力学习)。
笑点是,这几个词连在一起读出来就是reinforcement(强化学习)。烂谐音梗,让Sam都无语了。
Advertisements