OpenAI 发布新一代推理模型 o3 和 o3-mini，编程能力超越全球99.9%程序员

chatgpt2024-12-24 12:45:10104

12月21日凌晨，OpenAI 在其为期12天直播活动的最后一天终于再次放出大招，发布新一代推理模型 o3 和 o3-mini。

据介绍，o3 是一款在编码、数学表现十分强劲的模型，同时也在多个基准测试上超过此前的发布 o1 模型；而 o3-mini 是 o3 的精简版本，专注于提升推理速度和降低成本，同时保持模型性能，特别适合编程任务。

OpenAI 发布新一代推理模型 o3 和 o3-mini，编程能力超越全球99.9%程序员

至于命名为什么从 o1 直接跳到 o3，官方解释称是为了规避与英国电信公司 O2 直接可能存在的商标冲突，所以将新模型命名为 o3。

目前 OpenAI 仅向少部分安全研究人员开放 o3 和 o3-mini 的早期访问权限，预计 o3-mini 将于2025年1月底左右发布，o3 的发布时间则要更加靠后。

01

o3：博士级推理能力

o3 模型专为应对需要多步骤逻辑推理的复杂任务而设计，与前代 o1 模型相比，o3 在编程、数学计算、科学分析等领域表现显著提升，尤其擅长处理需要推理能力的场景，例如复杂的代码调试、学术问题求解和精密的数据建模。

在直播介绍中， OpenAI 技术人员也通过下列数据对于 o3 的能力进行了阐述：

编程能力：在软件工程 SWE-bench Verified 基准上，o3 的代码性能从 o1 的48.9%提升至71.7%，相比前代提升超过20%。在全球顶尖的编程竞赛平台 CodeForces 上评分高达2727，位列全球人类程序员编码竞赛175位，正式超越全球99.9%的程序员。

来源：OpenAI 直播

推理能力：o3 在美国数学奥林匹克考试中获得96.7%准确率，在博士级科学问题测试上准确率达到87.7%，显著超过人类专家平均水平的70%。

来源：OpenAI 直播

数学基准测试：EpochAI Frontier Math 测试涵盖了最新的前沿数学问题，在该项测试中 o3 准确率高达25.2%，其他所有模型的准确率都低于2%。

来源：OpenAI 直播

02

o3-mini：三种强度动态变化

作为 o3 的精简版，o3-mini 保留了其核心的推理能力，但以更低的计算需求和更快的响应速度满足用户多样化的需求。它引入了自适应思考时间的创新功能，根据任务的复杂性动态调整推理深度，提供灵活的性能表现。这一特性使其适合资源有限的设备或对时间敏感的任务场景，如实时决策支持和日常生产力应用。

来源：OpenAI 直播

自适应思考时间机制可以提供低、中、高三种推理强度选项，让用户能根据任务复杂度灵活调整模型的思考时间。简单任务能够得到快速响应，复杂的问题可开启更深度的思考模式。经过测算， o3-mini 在中等强度下性能就已经超越了 o1，在高强度下虽然仍落后于 o3，但差距已经不算太大。

在实际的演示中，技术人员要求 o3-mini 执行以下命令：

“编写一个 Python 脚本，该脚本可以在本地启动一个服务器，用于提供一个包含大文本框的 HTML 文件。当在该文本框中输入文本并点击提交时，它应将请求发送到 o3-mini API 中，并设置中等推理强度。然后，它应接收返回的代码，将其保存到桌面上的一个临时文件中，并在一个新的 Python 终端中执行该文件。”

在思考38秒后，o3-mini 一口气完成代码生成。

把代码复制粘贴到服务器上，并运行，便可获得生成的一个文本框。

在其中输入代码，比如要求输出“OpenAI 和一个随机数”，它就会将请求发送到o3-mini，模型便按要求输出 “OpenAI”，和数字41。也就是说，o3-mini 用38秒的时间写了一个脚本，通过 API 调用了它自己。

在另一项测试中，技术人员要求在一个博士水平科学问题的 GPQA Diamond 数据集上，评估 o3-mini 的低强度性能模式的具体评分。最终返回结果数值为61.62%，与正式评估结果62%几乎一致。

03

AGI 测试

然后就是大家非常惯性的 AGI 话题，这点也可以通过 ARC-AGI 的结果来说明。

ARC-AGI（人工通用智能评估基准）测试是一款公认的重要评估工具，旨在评估 AI 系统在面对未见过的新任务时的适应能力。该测试的核心在于其设计的任务往往需要深度逻辑推理和创新思维，这使得它成为评估 AI 系统通用智能能力的重要工具。

来源：OpenAI 直播

ARC-AGI 测试通常包括一系列精心设计的任务，这些任务可能涉及数学、逻辑、图形识别等多个方面。例如，任务可能要求 AI 系统通过观察几个示例来推断新任务的规则，并据此完成任务。这些任务对人类来说可能非常简单且直观易懂，但对 AI 系统来说却极具挑战性。

来源：OpenAI 直播

o3 在 ARC-AGI 测试中取得了显著的成绩，其中o3在高算力配置下达到了87.5%的得分，在低算力配置下也取得了75.7%的成绩，这一成绩远超 o1 的 32%，展示了前所未有的新型任务适应能力。而更早时候，GPT-3 得分是0%，GPT-4o 得分是5%。

尽管取得了这样的成绩，但 ARC-AGI 测试的组织者仍表示，这并不意味着已经实现了 AGI，因为 o3 在某些简单任务上仍有失误，且仍然依赖人工标注数据。

04

总结

o3 和 o3-mini 的发布标志着 OpenAI 在通用人工智能探索领域的重大进展。它们不仅在特定领域表现优异，更展现出多任务处理和推理的强大适应能力，尤其是在逻辑复杂、需要多步推理的场景中表现卓越。

总的来看，o3 系列的强大之处主要可以归结为以下几个方面：

更先进的架构设计：o3 和 o3-mini 采用了全新的推理优化架构，提升了多步逻辑处理的效率。通过对大规模数据的训练，结合高效的注意力机制和动态推理路径选择，在复杂场景中的能力显著增强。
创新的思考时间机制：o3-mini 的自适应思考时间功能使得推理深度可以动态调整，从而兼顾性能和响应速度，这在现有模型中是首次实现。
数据覆盖与预训练优化：OpenAI 在训练过程中可能使用了更广泛、更高质量的跨领域数据集，这不仅提高了模型的泛化能力，还让其在多领域任务中展现出超乎预期的表现。
算法突破：相较于传统语言模型，o3 系列在算法上实现了多层次优化，包括更智能的逻辑推理路径和更高效的内存利用。

o3 和 o3-mini 的推出不仅展示了人工智能技术的跨越式进步，也为未来智能系统的发展指明了新的方向。通过强大的推理能力、灵活的适应性和出色的性能表现，这两款模型正在重塑我们对 AI 辅助任务处理的期待。尽管距离真正的 AGI 仍有一段距离，但 o3 系列无疑向这一目标迈出了坚实的一步。

本文链接：https://yunguke.com/chatgpt/1122.html

o3 mini o3 openai o3 mini openai o3 chatgpt o3 mini chatgpt o3 o3 mini官网 openai o3官网