相比较chatgpt，OpenAI o1会不会更好？

chatgpt2024-09-27 11:22:18139

什么是o1，它是如何工作的？

那么，什么是o1？OpenAI的o1模型是他们最新的迭代，专注于高度推理和思想链处理。与GPT-4o或GPT-4等以前的模型不同，o1是专门为在响应前“思考”而设计的，这意味着它不仅生成文本，而且在响应前要经过多个推理步骤来解决复杂的问题。这种方法使它更好地完成需要详细推理的任务，如解决数学问题或编码挑战。这很像我们，在说话之前先思考。

不幸的是，和我们中的一些人一样，这种回答前的思考过程使o1比以前的模型慢得多。有时甚至不会引起任何反应。

当你问一个问题时，它需要更长的时间，因为它在推理上花费了更多的计算——基本上，它需要时间来反思和完善其回答。就像我们会要求在思想链提示下“一步一步地思考”一样，但它每次都这样做，因为他们如何通过强化学习进一步训练模型，迫使它每次一步一步地思考，并在回答前反思。不幸的是，除了“在数据效率高的训练过程中”之外，没有关于数据集的细节。

虽然结果看起来令人印象深刻，但我们必须拭目以待，看看人们是否喜欢需要更长的时间才能获得好结果的事实。尽管如此，还是有一些非常有趣的事情需要提及......

o1和GPT-4o之间的主要区别

首先，o1与GPT-4o等模型的真正不同点显然是其内置的推理能力。在测试中，o1在编码、解决问题和学术基准等推理繁重的任务上表现优于GPT-4o。o1的突出特点之一是它能够将思想串在一起，这意味着它更有能力解决早期模型可能挣扎的多步问题。

例如，在数学竞赛和编程挑战等任务中，o1能够解决更复杂的问题。平均而言，o1在AIME（美国邀请数学考试）等基准测试中得分要高得多，它解决了74%的问题，而GPT-4o的9%。

它在处理多语言任务方面也做得很好。事实上，在涉及约鲁巴语和斯瓦希里语等语言的测试中，o1的性能全面优于GPT-4o，这些语言对早期模型来说是出了名的困难。

推理时间和性能权衡

这就是o1的优势变成其潜在弱点的地方。虽然该模型在推理方面要好得多，但以推理时间和令牌数量为代价。思想链推理过程意味着o1比GPT-4o慢，因为它在推理过程中花更多时间思考问题，所以当它与您交谈时，而不是专注于使用严格使用高计算来训练模型。看到这里正在探索另一条途径，结果大大改善，现在由于最近模型不断降低生成价格和延迟，代币生成的效率提高，这非常酷。尽管如此，它还是显著增加了两者。

这种延迟差异在模型应处理复杂、多步推理的任务中尤为明显。因此，如果您使用o1进行快速、直接的任务，与GPT-4o-mini或Claude等型号相比，它可能感觉有点迟钝。这本质上是速度和理解深度之间的权衡。

减少幻觉

o1闪耀的另一个领域是减少幻觉——那些模特只是编造东西的时刻。在测试期间，o1的幻觉远低于GPT-4o，特别是在事实准确性至关重要的任务中。例如，在SimpleQA测试中，o1的幻觉率仅为0.44，而GPT-4o的幻觉率为0.61。这使得o1在正确事实至关重要的任务中更加可靠。

自我反思和“草莓问题”

你可能听说过人们提到一种叫做“草莓模型”的东西，在某些圈子里，它实际上是o1的代号。它之所以被称为“草莓”，有点像内部笑话——因为“草莓”一词中的“R”数字，这与复杂推理的概念有关。就像计算模型“草莓”中的R有多棘手一样，每次都要获得正确的推理步骤也很棘手，但o1使这个过程更有效率。

公平性和偏见处理o1中的另一个重大升级是它如何处理公平性和偏见。在BBQ测试等公平性评估中，与GPT-4o相比，o1在避免刻板印象反应方面要好得多。然而，它并不完美——当面对模棱两可的问题时，o1有时会挣扎，特别是当正确答案应该是“未知”时。但总的来说，它更符合人类价值观，特别是与GPT-4o相比。

关于o1So的最后想法，OpenAI的新草莓或o1模型并不是一个很大的飞跃。这基本上只是一个更好的模型，实现了思想链，促使我们大多数人已经在使用，而且以前也做过。问题是，通过更高的代币使用，生成需要更长的时间，成本更高，所以人们停止了这样做。似乎OpenAI做出了相反的决定，并全力以赴。事实上，它比GPT-4o等模型慢，因为它需要时间来思考问题，但如果你需要一个擅长解决复杂任务的模型，o1是你的首选。

如果您正在处理复杂的问题，或者需要一个跨不同语言的可靠模型，o1绝对值得额外的等待时间。但如果速度是你的首要任务，GPT-4o-mini可能仍然是更好的选择。

和往常一样，如果你想更深入地了解o1的工作原理及其结果，我在下面的描述中链接了更详细的资源和David Shapiro的非常酷的直播。

我通常尝试解释研究论文或方法，但不幸的是，像往常一样，OpenAI没有对强化学习过程或他们使用的数据说太多。尽管如此，我们可以假设该模型必须与GPT-4o非常相似，而数据集只是一个精心策划的数据集，实现了思想链过程。

本文链接：https://yunguke.com/chatgpt/416.html

chatgptplus完整使用教程 chatgptplus账号购买 chatgptplus多少钱 chatgptplus好用吗 chatgptplus怎么付费 chatgptplus官网