今天凌晨,OpenAI 发布了一款名为 o1 的新一代大型模型,这是其下一代“推理”模型中的第一个,代号为“Orion(猎户座)”。
亮点和技术创新
o1 模型在处理复杂问题和多步骤问题方面表现出色,尤其在编写代码、解决数学问题方面,超越了之前的模型。
o1模型使用了全新的优化算法和专门为其定制的新训练数据集进行训练。
与以往的模型不同,O1 模型能够逐步解决问题,通过内部的“思考链”来逐步推理并优化解决方案,这使得它在处理需要多步骤解决的问题时更为有效。
O1 模型具备自我事实核查的能力,这意味着它在回答问题之前会花费更多时间考虑所有部分,从而减少错误信息和不准确的输出。
这种新的训练方法使得模型在减少错误的同时,变得更加准确。
OpenAI 表示,o1模型相较于GPT-4o的主要区别在于:它能够更好地解决复杂问题,如编码和数学,并且能够解释其推理过程。
评测效果
在国际数学奥林匹克资格考试中,o1的得分达到了83%,而GPT-4o的正确率仅为13%。在Codeforces编程比赛中,o1模型的表现达到了参与者的89%的百分位。
O1 模型在代码分析和优化方面展现出了强大的能力,GitHub 已经在其 AI 编程助手 GitHub Copilot 中集成了 O1 模型,用于改进代码质量和性能。
O1 模型系列在安全性方面进行了优化,减少了生成错误信息(即“幻觉现象”)的情况。o1-preview 在安全性测试中得分较高,表明其在遵循安全和一致性指南方面的能力更强。
一些用户和开发者已经开始使用 O1 模型,并分享了他们的体验。例如,有教授在使用 O1 模型后表示,尽管它并不在所有方面都优于 GPT-4o,但它在解决某些难题方面表现出色。
使用入口
O1 模型已经集成到 ChatGPT 中,允许用户在对话环境中利用其先进的推理能力。
O1 模型有两个版本,包括 o1-preview 和 o1-mini。
其中 O1-mini 专为编码任务设计,响应速度更快,成本比 O1 模型低 80%,同时保持了高效的推理能力。
但无论是“预览版”,还是 mini 版,模型成本都比 GPT-4o 模型更高,且回答问题的速度较慢。
通过 API 使用 o1 预览版,输入每百万token的收费为 15 美元,输出每百万收费 60 美元。
相比之下,GPT-4o 的百万token输入收费为 5 美元,输出为 15 美元。
目前,Plus 用户已经可以访问 o1 预览版和 o1-mini,我们也来实际测试一下吧!
实测使用体验
为了评估 o1 的进步情况,我们准备了之前难倒一众大模型的 3 道问题,从易到难,看看 o1 表现如何?
面对经典的常识问题,o1 总算是修复了 Bug
然而面对“调休”这个问题,o1 再次“翻车”:
您在2024年9月9日(周一)到10月13日之间的放假调休安排是:
- **上6休3**:工作6天,休息3天
- **上3休2**:工作3天,休息2天
- **上5休1**:工作5天,休息1天
- **上2休7**:工作2天,休息7天
- **再上5休1**:工作5天,休息1天
**步骤1:列出所有休息日**
根据您的安排,休息的日期如下(共14天):
1. **9月15日(周日)**
2. **9月16日(周一)**
3. **9月17日(周二)**
4. **9月21日(周六)**
5. **9月22日(周日)**
6. **9月28日(周六)**
7. **10月1日(周二)**
8. **10月2日(周三)**
9. **10月3日(周四)**
10. **10月4日(周五)**
11. **10月5日(周六)**
12. **10月6日(周日)**
13. **10月7日(周一)**
14. **10月13日(周日)**
**步骤2:识别正常的周末休息日**
在这段时间内,正常的周末(周六和周日)共有10天:
1. **9月14日(周六)**(按安排需上班)
2. **9月15日(周日)**
3. **9月21日(周六)**
4. **9月22日(周日)**
5. **9月28日(周六)**
6. **9月29日(周日)**(按安排需上班)
7. **10月5日(周六)**
8. **10月6日(周日)**
9. **10月12日(周六)**(按安排需上班)
10. **10月13日(周日)**
其中,因调休需要上班的周末有3天:
- **9月14日(周六)**
- **9月29日(周日)**
- **10月12日(周六)**
因此,实际按安排休息的周末天数为7天。
**步骤3:计算额外的休息天数**
从总的休息天数中扣除正常应该休息的周末天数:
- **总休息天数:14天**
- **正常周末休息天数:7天**
**额外休息天数 = 总休息天数 - 正常周末休息天数 = 14天 - 7天 = 7天**
**结论:**
扣除本应休息的周末,您因为放假额外多休息了**7天**。
至今为止,只有 Claude 通过了“调休”测试,我还能说什么呢?这道数学题设计得妙啊!
o1-preview 目前对使用次数有限制,例如 ChatGPT Plus 用户每周可使用的 o1-preview 消息限额为 30 条,而 o1-mini 为 50 条。
总的来说,o1 模型的表现还是可圈可点的,我们看到其内置的“思维链”技术,开始重视按步骤思考的过程,但是面对复杂问题,逻辑推理能力还有改进的空间。
本文链接:https://yunguke.com/chatgpt/399.html
OpenAI-o1OpenAI o1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1 miniOpenAI o1 previewOpenAI o1官网OpenAI o1官网入口OpenAI o1地址OpenAI o1中文版openai o1模型简介
网友评论