OpenAI上线新推理模型,性能未能全面超越DeepSeek

2月1日消息，OpenAI正式上线o3-mini，并从即日起在Chat Completions API、Assistants API和Batch API中逐步向层级3-5的开发者推出。ChatGPT Plus、Team和Pro用户可率先使用，企业用户一周后可访问。

o3-mini是OpenAI首款支持开发者需求功能的小型推理模型，继承o1-mini的低成本、低延迟优势，并支持函数调用、流式传输、结构化输出等功能。开发者可根据需求选择推理强度，平衡思考深度和响应速度，但不支持视觉任务，视觉推理仍需使用o1。

此外，o3-mini现已支持与搜索功能结合，能够提供最新答案并链接至相关网络资源。这标志着OpenAI正在将搜索功能逐步整合到其推理模型中。

有外媒将o3-mini 和DeepSeek的R1模型进行了对比：

在用于衡量模型理解和响应复杂指令能力的2024年美国数学邀请赛（AIME）测试中，o3-mini仅在高推理强度下表现优于R1；

在以编程为重点的SWE-bench Verified基准测试中，o3-mini同样仅在高推理强度下以微弱优势（0.1 分）领先R1；

在低推理强度下，o3-mini在博士级科学问题（GPQA Diamond）基准测试中落后于R1，该测试主要用于衡量模型在博士级别物理、生物和化学问题上的表现。

聚焦STEM领域推理优化

OpenAI表示，o3-mini专注于STEM领域（如编程、数学和科学）的相关问题以及逻辑推理问题。也就是说，这个模型在涉及技术性、复杂性较高的任务时表现出色，能帮助开发者解决代码编写、数学计算、工程设计等方面的挑战。

根据OpenAI介绍，在中等推理强度下，o3-mini在数学、编程和科学等STEM领域与o1模型相当，并且更快速、准确，推理能力更强。专家评测显示，o3-mini的回答更准确、清晰，重大错误率降低39%，测试者56%的时间更倾向于选择o3-mini的回答。

OpenAI在官方博客中也将O3-mini的性能与o1系列进行了比较：

--在低推理强度下，o3-mini的表现与o1-mini相当；

--在中等推理强度下，o3-mini的表现与o1相当。在数学、编程和科学领域，o3-mini以更快的响应速度实现了与o1相当的性能；

--在高推理强度下，o3-mini的表现优于o1-mini和o1。

值得注意的是，在某些领域，o3-mini相对于o1的性能优势较为微弱。例如，在2024年美国数学邀请赛（AIME）测试中，o3-mini在高推理强度下仅比o1高出0.3个百分点。而在博士级科学问题（GPQA Diamond）基准测试，即使在高推理强度下，o3-mini也未能超过o1的得分。

2024年美国数学邀请赛（AIME）

注：在数学领域，OpenAI的o3-mini模型展现了不同的推理强度下的多样化性能。在2024年美国数学邀请赛（AIME）测试中，当推理强度设置为低时，o3-mini的表现与o1-mini相当；在中等推理强度下，o3-mini的性能与o1模型相当。当推理强度调至高时，o3-mini的表现超越了o1-mini和o1。这表明o3-mini在不同推理强度下能够灵活适应不同的任务需求，为用户提供更精准、高效的解决方案。

博士级科学问题（GPQA Diamond）

FrontierMath

注：在研究级数学领域，OpenAI的o3-mini模型在高推理强度下于FrontierMath基准测试中的表现优于o1-mini。在FrontierMath测试中，当提示使用Python工具时，高推理强度的o3-mini在首次尝试中解决了超过32%的问题，其中包括超过28%的高难度（T3 类别）问题。

编程竞赛（Codeforces）

注：在编程竞赛领域，OpenAI的o3-mini模型随着推理强度的增加，Elo评分逐步提高，全面超越了o1-mini。在中等推理强度下，o3-mini的性能与o1持平。

软件工程（SWE-bench Verified）

注：在SWE-bench Verified基准测试中，o3-mini是OpenAI表现最为出色的模型。在高推理强度下，o3-mini的表现显著优于o1-mini。其中：使用开源的Agentless scaffold，o3-mini的准确率为 39%；使用内部工具scaffold，o3-mini的准确率提升至61%。

LiveBench Coding

人类偏好评估（Human Preference Evaluation）

注：外部专家测试者的评估结果表明，OpenAI的o3-mini在生成回答的准确性、清晰度以及推理能力方面均优于o1-mini，尤其是在STEM领域。测试者在56%的情况下更倾向于选择o3-mini的回答，并且在处理复杂现实问题时，o3-mini 的重大错误率降低了39%。

OpenAI表示，Plus和Team企业用户的速率限制从每天50条消息（使用 o1-mini）提升至每天150条消息（使用 o3-mini）。免费用户也可通过“推理”选项体验o3-mini，这是ChatGPT首次向免费用户开放推理模型。

成本大幅度降低、安全性更高了

在春节火热出圈的国产大模型DeepSeek，其R1模型的推出对OpenAI构成了竞争压力，尤其在成本方面呈现出显著差异。OpenAI 的推理模型o1系列相对成本较高，o1模型的API定价为每百万输入token 15美元，每百万输出token 60美元，而DeepSeek R1的API定价为每百万输入token 0.14美元（缓存命中）/0.55美元（缓存未命中），每百万输出token 2.19美元。

这次发布中，OpenAI强调了成本问题。与OpenAI的o1-mini相比，o3-mini的价格降低了63%。o3-mini定价为每百万输入tokens 1.10美元，每百万输出tokens 4.40美元。不过，相比DeepSeek-R1，o3-mini依然还是价格更高。

禁止内容评估（Disallowed Content Evaluations）

越狱评估（Jailbreak Evaluations）

安全方面，OpenAI表示，在训练o3-mini以实现安全响应的过程中，采用了一种关键技术--深思熟虑的对齐（deliberative alignment）。通过这种方法，OpenAI训练模型在回答用户提示之前，先对人类编写的安全规范进行推理。我们可以理解为，OpenAI希望确保o3-mini生成的内容更加安全、符合道德，并降低了模型生成不良或有害响应的风险。

与OpenAI o1类似，o3-mini在应对具有挑战性的安全和越狱评估时，表现显著优于GPT-4o。在部署之前，OpenAI使用与o1相同的方法，对o3-mini的安全风险进行了仔细评估，包括准备性评估、外部红队测试以及安全性评估。

总之，o3-mini的正式上线，标志着OpenAI在推动成本效益型智能发展方面迈出了重要一步。通过优化STEM领域的推理能力并保持低成本，这一模型也延续了OpenAI降低智能成本的记录。

OpenAI推o3-mini新模型，被DeepSeek逼急？定价仍打不过

智东西2月1日报道，今日凌晨，OpenAI发布全新推理模型o3-mini。

OpenAI称这是其最具成本效益的推理模型，复杂推理和对话能力显著提升，在科学、数学、编程等领域的性能表现超过前代o1模型，同时保持了o1-mini的低成本和低延迟，并可与联网搜索功能搭配使用。

o3-mini已在ChatGPT和API中可用，企业版访问权限将在一周内推出。

显然DeepSeek登顶美国App Store免费榜给OpenAI制造了压力。今天，ChatGPT首次向所有用户免费提供推理模型：用户可在ChatGPT中选择“Reason”按钮来试用o3-mini。

ChatGPT Pro用户可无限制访问，Plus和Team用户的速率限制从原来o1-mini的每天50条消息增加3倍到o3-mini的每天150条消息。

付费用户还可以选择更高智能的版本“o3-mini-high”。该版本需要更长的时间才能生成响应。

和o1模型一样，o3-mini模型的知识截止日期为2023年10月，上下文窗口为20万个token，最多可输出10万个token。

有低（low）、中（medium）、高（high）三个版本的o3-mini，供开发者针对其特定用例进行优化。

o3-mini目前不支持视觉功能，因此开发者仍需使用o1进行视觉推理任务。

即日起，o3-mini在Chat Completions API、Assistants API、Batch API中推出。

OpenAI称相较推出GPT-4时，每个token的价格已经降低了95%，同时保持了顶级的推理能力。不过o3-mini的API定价还是高于DeepSeek模型。

▲OpenAI模型与DeepSeek模型API定价对比（智东西制图）

安全方面，OpenAI发现o3-mini在具有挑战性的安全性和越狱方面明显超过GPT-4o。

一、详解o3-mini：科学数学编程能力进化，延迟明显降低

OpenAI发布了o3-mini的37页详细报告，涵盖模型的介绍、数据和训练、测试范围、安全挑战和评估、外部红队测试、准备框架评估、多语言性能以及结论等多个方面。

o3-mini针对科学、数学、编程推理进行了优化，同时响应速度更快。

该模型在GPQA Diamond（理化生）、AIME 2022-2024（数学）、Codeforces ELO（编程）基准测试中，o3-mini的分数分别为0.77、0.80、2036，比肩或超过o1推理模型。

在14种语言的MMLU测试集上，o3-mini的表现显著优于o1-mini，展示了其在多语言理解方面的进步。

外部专家测试人员的评估表明，与o1-mini相比，o3-mini的答案更准确、更清晰，推理能力更强。

在人类偏好评估中，测试人员在56%的时间里更喜欢o3-mini的回答，并观察到在困难的现实问题上重大错误减少了39%。在中推理能力下，o3-mini在一些最具挑战性的推理和智力评估（包括AIME和GPQA）上的表现与o1相当。

o3-mini的智能可媲美o1，提供了更快的性能、更高的效率。中推理能力下，该模型还在额外的数学和事实性评估中表现出色。在A/B测试中，o3-mini的响应速度比o1-mini快24%，平均响应时间为7.7秒，而o1-mini为10.16秒。

数学方面，在低推理能力下，o3-mini的表现与o1-mini相当，而在中推理能力下，o3-mini的表现与o1相当。同时，在高推理能力下，o3-mini的表现优于o1-mini和o1。

具有高推理能力的o3-mini在FrontierMath上的表现优于其前代。

在FrontierMath测试上，当被提示使用Python工具时，具有高推理能力的o3-mini在第一次尝试时解决了超过32%的问题，其中包括超过28%的具有挑战性的（T3）问题。

o3-mini随着推理能力的增加逐渐获得更高的Elo分数，均优于o1-mini。在中推理能力下，它的表现与o1相当。

o3-mini是OpenAI在SWE-bench验证中表现最好的模型。

关于SWE-bench验证结果的更多数据如下图所示。o3-mini (tools) 性能最好，为61%。使用Agentless而非内部工具的o3-mini上市候选产品得分为39%。o1是表现第二好的模型，得分为48%。

在LiveBench编程测试中，高推理能力的o3-mini得分全面超过o1-high。

二、多项安全评估超过GPT-4o

OpenAI还详细介绍了o3-mini在多个安全评估中的表现，称o3-mini在具有挑战性的安全性和越狱评估方面明显超越了GPT-4o。

在不允许的内容评估中，与GPT-4o相比，o3-mini在标准拒绝评估和挑战性拒绝评估中表现相似，但在XSTest中略逊一筹。

在越狱评估中，o3-mini与o1-mini相比，在生产越狱、越狱增强示例、StrongReject和人类来源的越狱评估中表现相当。

在幻觉评估中，使用PersonQA数据集，o3-mini的准确率为21.7%，幻觉率为14.8%，与GPT-4o、o1-mini相比表现相当或更好。

在公平性和偏见评估中，o3-mini在BBQ评估中的表现与o1-mini相似，但在处理模糊问题时的准确性略有下降。

外部红队测试显示，o3-mini在与o1的比较中表现相当，两者都显著优于GPT-4o。

在Gray Swan Arena的越狱测试中，o3-mini的平均用户攻击成功率为3.6%，与o1-mini和GPT-4o相比略高。

准备框架评估涵盖了网络安全、CBRN（化学、生物、放射性、核）、说服力、模型自主性四个风险类别。o3-mini在网络安全方面被评为“低风险”，在CBRN、说服力、模型自主性方面被评为“中等风险”，在生物威胁创建方面的表现达到了“中等风险”阈值，但在核和放射性武器发展方面的能力有限。

按其评级，只有缓解后得分为“中等”或以下的模型才可以部署，得分“高等”或以下的模型才可以进一步开发。

三、o3基准测试成本或超3000万美元，OpenAI正谈判2900亿元新融资

自去年9月发布o1以来，OpenAI一直在迭代其推理模型，去年年底发布的o3模型是其最新一代AI推理模型。

高端版o3模型针对高计算应用，而o3-mini迎合了需要兼顾经济高效的用户需求。这反映了OpenAI试图平衡可访问性和高级付费产品的策略。

这两天也不知道是被DeepSeek逼急了，还是为了给o3-mini预热，OpenAI联合创始人兼CEO萨姆·阿尔特曼在社交平台上非常活跃，又是夸DeepSeek R1令人印象深刻，又说OpenAI将提供更好的模型，又强调更多计算很重要。

昨天他还大张旗鼓地宣布第一个完整8机架GB200 NVL72服务器正在微软Azure为OpenAI运行。

印度政府本周五发布的《2024-2025经济调查》报告显示，OpenAI可能已经花费超过3000万美元来对其最新AI推理模型o3进行基准测试。

该报告写道，OpenAI o3模型处理能力的突破付出了非常高的代价。ARC-AGI基准测试被认为是最具挑战性的AI任务之一，OpenAI的低效配置模型导致了20万美元的成本。高效模型的成本更是高达低效模型的172倍，也就是大约3440万美元。

阿尔特曼前几天还晒出和微软董事长兼CEO萨提亚·纳德拉的合照，说微软和OpenAI合作的下一阶段将会比任何人想象的都要好得多。

不过微软作为OpenAI最大投资者的名号，可能要被日本软银集团夺走。

近期软银集团创始人兼CEO孙正义与阿尔特曼往来愈发密切，上周宣布联手成立AI巨型项目“星际之门（Stargate）”，未来四年投资5000亿美元（约合人民币3.6万亿元）建设AI基础设施，昨天又被外媒曝出将成为OpenAI新一轮巨额融资的领投方。

据外媒报道，OpenAI正在进行初步谈判，计划在一轮融资中筹集至多400亿美元（约合人民币2901亿元），估值将达到3000亿美元（约合人民币2.18万亿元）。日本软银集团将领投此轮融资，正在商谈投资150亿至250亿美元，剩余资金将来自其他投资者。

加上之前软银承诺向“星际之门”投资的逾150亿美元，最终软银可能会在与OpenAI的合作上投入超过400亿美元。这将成为软银迄今最大的投资之一。

结语：狂卷性价比，高质AI推理模型走向普及

此前马斯克等科技大佬已经公开质疑过如何承担建造“星际之门”的巨额成本。在DeepSeek高性能低成本开源模型的影响下，美国AI产业界和华尔街投资者对OpenAI等其他美国AI开发商的大手笔支出策略更是疑窦丛生。

OpenAI最新推出的o3-mini，也被视作抵御DeepSeek模型冲击的最新举措，令业界尤其关注。

在新闻稿中，OpenAI称o3-mini的发布标志着该公司向突破高性价比智能界限的使命又迈进了一步，让高质量的AI更加触手可及，OpenAI致力于走在前沿，构建能够平衡智能、效率和安全性的大规模模型。

推荐阅读

深圳一面馆实现“无人全面机械化” 48秒出一碗(组图)

美国直觉机器着陆器可能在月球南极附近着陆时翻倒

美国宇航局确认:中国通过一庞大项目将减缓地球自转