OpenAI O1 草莓模型发布，推理分析简直炸裂了

chatgpt2024-09-13 12:34:03170

9月12日美西时间上午10点，OpenAI传闻已久的草莓模型终于发布。

这次OpenAI发布了一个新的模型系列，官方名叫OpenAI o1，学名又称为“草莓”，包括两个模型，分别是o1-preview 和 o1-mini 。从今天发布开始，ChatGPT Plus 和 Team用户将能够在 ChatGPT 中访问 o1 模型。o1-preview 和 o1-mini 都可以在模型选择器中手动选择，在发布时，每周发送消息次数限制为 o1-preview 30 条消息和 o1-mini 50 条消息。

主要原理

基于内部思维链的推理。

草莓模型o1 在回答之前会思考——它可以在回应用户之前产生一个长长的内部思维链。o1 接受了 RL 的训练，在通过私有思维链做出响应之前进行“思考”。它思考的时间越长，它在推理任务上的表现就越好。这为扩展开辟了一个新的维度。我们不再受制于预训练。我们现在也可以扩展推理计算。

OpenAI o1-preview

两个系列中，核心模型是o1-preview预览版，这是一种新的大型语言模型，经过强化学习训练可以执行复杂的推理。

01预览版适合对象

如果您正在解决科学、编码、数学和类似领域的复杂问题，这些增强的推理能力可能特别有用。例如，医疗研究人员可以使用 o1 来注释细胞测序数据，物理学家可以使用 o1 来生成量子光学所需的复杂数学公式，各领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。

OpenAI o1-mini

作为一款较小的模型，o1-mini 比 o1-preview 便宜 80%，使其成为一款功能强大、经济高效的模型，适用于需要推理但不需要广泛世界知识的应用程序。

o1 -mini适用对象

擅长准确生成和调试复杂代码。为了给开发人员提供更高效的解决方案，OpenAI还发布了OpenAI o1-mini，这是一种速度更快、成本更低的推理模型，在编码方面尤其有效。

草莓模型强大之处

看看OpenAI官方介绍

OpenAI o1 在竞争性编程问题（Codeforces）中排名第 89 位，在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列，并在物理、生物和化学问题 (GPQA) 基准测试中超越人类博士级准确度。虽然使这个新模型像当前模型一样易于使用所需的工作仍在进行中，但我们正在发布该模型的早期版本 OpenAI o1-preview，供 ChatGPT 和受信任的 API 用户立即使用（在新窗口中打开）。

我们的大规模强化学习算法教会模型如何在高度数据高效的训练过程中利用其思路进行有效思考。我们发现，随着强化学习的增加（训练时间计算）和思考时间的增加（测试时间计算），o1 的性能会持续提高。扩展此方法的限制与 LLM 预训练的限制大不相同，我们将继续研究这些限制。

o1 性能随着训练时间和测试时间计算而平稳提升

为了突出推理能力相对于 GPT-4o 的提升，我们在一系列不同的人工考试和 ML 基准上测试了我们的模型。我们表明，在绝大多数推理能力较强的任务中，o1 的表现明显优于 GPT-4o。除非另有说明，否则我们在最大测试时间计算设置上对 o1 进行了评估。

o1 在具有挑战性的推理基准上大大优于 GPT-4o。实线表示 pass@1 准确率，阴影区域表示 64 个样本的多数投票（共识）表现。

o1 在广泛的基准测试中都比 GPT-4o 有所改进，包括 54/57 个 MMLU 子类别。图中显示了七个子类别以供说明。

逻辑推理

与人类在回答难题之前会长时间思考的方式类似，o1 在尝试解决问题时会使用思路链。通过强化学习，o1 学会磨练其思路链并改进其使用的策略。它学会识别和纠正错误。它学会将棘手的步骤分解为更简单的步骤。它学会在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。为了说明这一飞跃，我们在下面展示了 o1-preview 中几个难题的思路链。

看看下面这个例子，就能直观感受草莓模型01-预览版的强大之处。

用同样的问题分别去分GPT-4o和草莓01-预览版

问题：

oyfjdnisdr rtqwainr acxz mynzbhhx -> 一步一步思考

使用上面的例子来解码：

oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

GPT-4o的回答：

具体的过程就不贴了，大家可以上OpenAI官网看，GPT-4o直接拒绝了，让你提供更多的信息，明摆着拒绝的意思。再看草莓模型的回答。

草莓01-预览版的回答：

为了使用提供的示例解码给定的密文，我们将使用示例中标识的模式。

密文示例：

oyfjdnisdr rtqwainr acxz mynzbhhx

解码为：

Think step by step

解码方法：

将密文中的字母配对。

将每个字母转换为字母表中的数字位置（A=1，B=2，...，Z=26）。

将每对的数值相加。

计算总和的平均值（除以 2）。

将平均值转换回字母（1=A，2=B，...，26=Z）。

上面是解题过程，一步一步推理的非常清晰，直接看结果。

看到没，直接给出了答案：草莓有三个 R

写到了这里，不惊讶都不行了，之前的大模型没有哪家对严肃的科学推理或逻辑问题有比较好的效果，甚至在数学逻辑方面还不如小学生，这次OpenAI就搞出了个如此炸裂的草莓模型。

编码

还不止，草莓模型01预览版，在编程方面的得分也有强大的实力。

OpenAI模拟了 Codeforces 主办的竞争性编程竞赛，以展示该模型的编码技能。我们的评估与竞赛规则非常接近，允许提交 10 份作品。GPT-4o 的 Elo 评级为3 分（808 分），位于人类竞争对手的第 11 个百分位。该模型远远超过了 GPT-4o 和 o1——它的 Elo 评级为 1807 分，表现优于 93% 的竞争对手。