OpenAI o1模型突破式提升，AGI已越来越近

chatgpt2024-09-13 19:48:33135

9月12日，OpenAI正式公开o1模型，该模型在推理能力上有了跨越式的提升，在竞赛级的数学难题和代码难题上，相比之前的gpt4o模型有了极大提升，并且在博士级的科学题目上超越了人类专家的水平：

详细报道见：刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理极限

OpenAI o1模型的发布，标志着人类在通往AGI之路上又前进了一大步。在通往AGI之路，人类已走完68% 一文中，我将AGI的能力拆分成6个类别20项细分能力，然后评估每个细分能力的实现进度，最终得到总的实现进度为68.28%（当时时间为2024年6月底）。如今不到3个月，我们可以再次刷新该评估，AGI实现进度已大幅提升至76.41%：

具体项进展说明如下：

主动注意能力：Qwen2-VL等多模态模型实现了动态分辨率的图像编码器，使图像编码后尽可能保留原始信息，从而可以借助Transformer的注意力机制实现主动注意^[1]。该项进展从33%提升到60%。
思维规划能力：OpenAI o1模型通过强化学习训练模型使用思维链方式进行思考，取得明显的成果，该项进展从30%提升到60%。
行动规划能力：Cradle框架无需训练就能像人一样控制键盘鼠标，玩多种商业游戏并操作各种软件，不依赖内部API实现软件交互^[2]。Sid项目通过1000多个智能体一同协作，在虚拟世界中构建起自己的经济、文化、宗教和政府^[3]。该项进展从40%提升到60%。
形象思维能力：业界有两项重要突破，一是Video-of-Thought（视频思维链）通过引入时空场景图（STSG）作为思维链的中间表示，实现更强大的视觉推理能力^[4]。二是Transfusion模型，通过将Transformer模型与Diffusion模型结合，能够生成高质量的图文并茂的内容^[5]。加上可灵等商业视频生成模型的进步，可以将该项进展从30%提升到50%。
逻辑思维能力：OpenAI o1模型使该项进展从80%提升到95%。（之所以不是100%，是因为目前还只有OpenAI的官方测评，待第三方测评结果验证其推理能力的可靠性）
屏幕操作能力：Cradle框架将该项从80%提升到85%。
学习能力：OpenAI o1模型显示了使用强化学习方法，能够不依赖于大量的数据实现LLM的性能不断提升，这是一项重大突破。这种强化学习类似于AlphaZero的强化学习，而不是像RLHF那样的强化学习，RLHF只是通过人类反馈来训练LLM的输出更加符合人类喜好，但并不能提升LLM本身的核心能力，而AlphaZero的强化学习能够在不需要外部数据的情况下持续进化，不断提升性能。该项从67%提升到80%。
长期记忆能力：业界有三项重要突破：GraphRAG利用LLM生成知识图谱作为外置记忆，能够更好地提升模型的问答性能^[6]；Memory3以注意力层的key - value向量作为索引为大模型添加显式记忆，使其知识存储和提取更高效^[7]；TTT(Test-Time Training)架构使用ML模型作为RNN隐藏状态，实现更好的长上下文性能^[8]。该项从75%提升到85%。