ChatGpt官网入口

OpenAI 草莓(o1)大模型背后的思考

chatgpt2024-09-17 00:41:0549

英伟达高级研究经理Jim Fan的观点

OpenAI 草莓 (o1) 已出炉!我们终于看到推理时间扩展的范例在生产中得到普及和部署。正如萨顿在《痛苦的教训》中所说,只有两种技术可以随着计算无限扩展:学习和搜索。是时候将焦点转移到后者了。 

1.你不需要一个巨大的模型来进行推理。

许多参数专门用于记忆事实,以便在琐事 QA 等基准测试中表现良好。可以从知识中分解出推理,即知道如何调用浏览器和代码验证器等工具的小型“推理核心”。预训练计算量可能会减少。

2. 大量计算转移到推理服务,而不是训练前/训练后。

LLMs是基于文本的模拟器。通过在模拟器中推出许多可能的策略和场景,模型最终将收敛到良好的解决方案。这个过程是一个经过充分研究的问题,就像 AlphaGo 的蒙特卡罗树搜索(MCTS)一样。 

3. OpenAI 肯定很早之前就已经弄清楚了推理缩放定律。

学术界最近才发现这一定律。上个月,Arxiv 上相隔一周发表了两篇论文也发现了通过对推理过程进行优化可以显著提升大模型回答的正确率:

论文《Large Language Monkeys: Scaling Inference Compute with Repeated Sampling》发现 DeepSeek-Coder 在 SWE-Bench 上从1个样本的 15.9% 提高到 250 个样本的 56%,击败了 Sonnet-3.5。 

论文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》发现PaLM 2-S通过测试时搜索在数学上击败了 14 倍大的模型。

4. 将o1产品化比确定学术基准要困难得多。

对于自然推理问题,如何决定何时停止搜索?奖励函数是什么?成功的标准是什么?何时在循环中调用代码解释器等工具?如何考虑这些 CPU 进程的计算成本?他们的研究帖子没有太多分享。 

5.草莓很容易成为数据飞轮。

如果答案正确,整个搜索轨迹将成为训练示例的小型数据集,其中包含正面奖励和负面奖励。这反过来又改进了 GPT 未来版本的推理核心,类似于 AlphaGo 的价值网络(用于评估每个棋盘位置的质量)如何随着 MCTS 生成越来越精细的训练数据而改进。

OpenAI联合创始人Greg Brockman的观点

OpenAI o1——我们第一个经过强化学习训练的模型,可以在回答问题之前认真思考问题。为团队感到无比自豪!

这是一个充满机遇的新范式。这在定量上(例如,推理指标已经是阶跃函数的改进)和定性上(例如,忠实的思想链通过让您用简单的英语“阅读模型的想法”来使模型变得可解释)是显而易见的。

思考这个问题的一种方法是,我们的模型进行系统 I 思维,而思维链则解锁系统 II 思维。人们不久前发现,促使模型“一步一步思考”可以提高性能。但训练模型来做到这一点,通过端到端的反复试验,要可靠得多,而且——正如我们在围棋或 Dota 等游戏中所看到的那样——可以产生极其令人印象深刻的结果。

o1 技术还处于早期阶段。它提供了我们正在积极探索的新的安全机会,包括针对敌对攻击者的可靠性、幻觉和鲁棒性。例如,通过让模型通过思维链推理策略,我们的安全指标得到了极大的提升。

它的准确性还有巨大的进一步改进空间——例如,从我们发布的帖子来看,我们的模型在今年的竞争性编程奥林匹克 (IOI) 人类条件下,在每个问题提交 50 份的条件下,取得了第 49 个百分位/213 分。但每个问题提交 10,000 份后,该模型获得了 362.14 分,高于金牌门槛。因此,该模型的输出能力比乍一看还要强。

参考文献

1.https://arxiv.org/abs/2407.21787v1
2.https://arxiv.org/pdf/2408.03314
3.https://x.com/DrJimFan/status/1834279865933332752
4.https://x.com/gdb/status/1834295775674990676

本文链接:https://yunguke.com/chatgpt/407.html

chatgptplus完整使用教程chatgptplus使用教学chatgptplus好用吗chatgptplus怎么付费chatgptplus官网ChatGPT PRO

相关文章

网友评论