12月21日凌晨,OpenAI 在其为期12天直播活动的最后一天终于再次放出大招,发布新一代推理模型 o3 和 o3-mini。
据介绍,o3 是一款在编码、数学表现十分强劲的模型,同时也在多个基准测试上超过此前的发布 o1 模型;而 o3-mini 是 o3 的精简版本,专注于提升推理速度和降低成本,同时保持模型性能,特别适合编程任务。至于命名为什么从 o1 直接跳到 o3,官方解释称是为了规避与英国电信公司 O2 直接可能存在的商标冲突,所以将新模型命名为 o3。目前 OpenAI 仅向少部分安全研究人员开放 o3 和 o3-mini 的早期访问权限,预计 o3-mini 将于2025年1月底左右发布,o3 的发布时间则要更加靠后。
o3 模型专为应对需要多步骤逻辑推理的复杂任务而设计,与前代 o1 模型相比,o3 在编程、数学计算、科学分析等领域表现显著提升,尤其擅长处理需要推理能力的场景,例如复杂的代码调试、学术问题求解和精密的数据建模。在直播介绍中, OpenAI 技术人员也通过下列数据对于 o3 的能力进行了阐述:编程能力:在软件工程 SWE-bench Verified 基准上,o3 的代码性能从 o1 的48.9%提升至71.7%,相比前代提升超过20%。在全球顶尖的编程竞赛平台 CodeForces 上评分高达2727,位列全球人类程序员编码竞赛175位,正式超越全球99.9%的程序员。
来源:OpenAI 直播推理能力:o3 在美国数学奥林匹克考试中获得96.7%准确率,在博士级科学问题测试上准确率达到87.7%,显著超过人类专家平均水平的70%。
来源:OpenAI 直播数学基准测试:EpochAI Frontier Math 测试涵盖了最新的前沿数学问题,在该项测试中 o3 准确率高达25.2%,其他所有模型的准确率都低于2%。![]()
作为 o3 的精简版,o3-mini 保留了其核心的推理能力,但以更低的计算需求和更快的响应速度满足用户多样化的需求。它引入了自适应思考时间的创新功能,根据任务的复杂性动态调整推理深度,提供灵活的性能表现。这一特性使其适合资源有限的设备或对时间敏感的任务场景,如实时决策支持和日常生产力应用。
自适应思考时间机制可以提供低、中、高三种推理强度选项,让用户能根据任务复杂度灵活调整模型的思考时间。简单任务能够得到快速响应,复杂的问题可开启更深度的思考模式。经过测算, o3-mini 在中等强度下性能就已经超越了 o1,在高强度下虽然仍落后于 o3,但差距已经不算太大。在实际的演示中,技术人员要求 o3-mini 执行以下命令:“编写一个 Python 脚本,该脚本可以在本地启动一个服务器,用于提供一个包含大文本框的 HTML 文件。当在该文本框中输入文本并点击提交时,它应将请求发送到 o3-mini API 中,并设置中等推理强度。然后,它应接收返回的代码,将其保存到桌面上的一个临时文件中,并在一个新的 Python 终端中执行该文件。”在思考38秒后,o3-mini 一口气完成代码生成。把代码复制粘贴到服务器上,并运行,便可获得生成的一个文本框。在其中输入代码,比如要求输出“OpenAI 和一个随机数”,它就会将请求发送到o3-mini,模型便按要求输出 “OpenAI”,和数字41。也就是说,o3-mini 用38秒的时间写了一个脚本,通过 API 调用了它自己。在另一项测试中,技术人员要求在一个博士水平科学问题的 GPQA Diamond 数据集上,评估 o3-mini 的低强度性能模式的具体评分。最终返回结果数值为61.62%,与正式评估结果62%几乎一致。然后就是大家非常惯性的 AGI 话题,这点也可以通过 ARC-AGI 的结果来说明。ARC-AGI(人工通用智能评估基准)测试是一款公认的重要评估工具,旨在评估 AI 系统在面对未见过的新任务时的适应能力。该测试的核心在于其设计的任务往往需要深度逻辑推理和创新思维,这使得它成为评估 AI 系统通用智能能力的重要工具。
来源:OpenAI 直播ARC-AGI 测试通常包括一系列精心设计的任务,这些任务可能涉及数学、逻辑、图形识别等多个方面。例如,任务可能要求 AI 系统通过观察几个示例来推断新任务的规则,并据此完成任务。这些任务对人类来说可能非常简单且直观易懂,但对 AI 系统来说却极具挑战性。
来源:OpenAI 直播o3 在 ARC-AGI 测试中取得了显著的成绩,其中o3在高算力配置下达到了87.5%的得分,在低算力配置下也取得了75.7%的成绩,这一成绩远超 o1 的 32%,展示了前所未有的新型任务适应能力。而更早时候,GPT-3 得分是0%,GPT-4o 得分是5%。尽管取得了这样的成绩,但 ARC-AGI 测试的组织者仍表示,这并不意味着已经实现了 AGI,因为 o3 在某些简单任务上仍有失误,且仍然依赖人工标注数据。
o3 和 o3-mini 的发布标志着 OpenAI 在通用人工智能探索领域的重大进展。它们不仅在特定领域表现优异,更展现出多任务处理和推理的强大适应能力,尤其是在逻辑复杂、需要多步推理的场景中表现卓越。
总的来看,o3 系列的强大之处主要可以归结为以下几个方面:- 更先进的架构设计:o3 和 o3-mini 采用了全新的推理优化架构,提升了多步逻辑处理的效率。通过对大规模数据的训练,结合高效的注意力机制和动态推理路径选择,在复杂场景中的能力显著增强。
- 创新的思考时间机制:o3-mini 的自适应思考时间功能使得推理深度可以动态调整,从而兼顾性能和响应速度,这在现有模型中是首次实现。
- 数据覆盖与预训练优化:OpenAI 在训练过程中可能使用了更广泛、更高质量的跨领域数据集,这不仅提高了模型的泛化能力,还让其在多领域任务中展现出超乎预期的表现。
- 算法突破:相较于传统语言模型,o3 系列在算法上实现了多层次优化,包括更智能的逻辑推理路径和更高效的内存利用。
o3 和 o3-mini 的推出不仅展示了人工智能技术的跨越式进步,也为未来智能系统的发展指明了新的方向。通过强大的推理能力、灵活的适应性和出色的性能表现,这两款模型正在重塑我们对 AI 辅助任务处理的期待。尽管距离真正的 AGI 仍有一段距离,但 o3 系列无疑向这一目标迈出了坚实的一步。 本文链接:https://yunguke.com/chatgpt/1122.html
o3 minio3openai o3 miniopenai o3chatgpt o3 minichatgpt o3o3 mini官网openai o3官网
网友评论