9月12日,OpenAI正式公开o1模型,该模型在推理能力上有了跨越式的提升,在竞赛级的数学难题和代码难题上,相比之前的gpt4o模型有了极大提升,并且在博士级的科学题目上超越了人类专家的水平:
详细报道见:刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
OpenAI o1模型的发布,标志着人类在通往AGI之路上又前进了一大步。在 通往AGI之路,人类已走完68% 一文中,我将AGI的能力拆分成6个类别20项细分能力,然后评估每个细分能力的实现进度,最终得到总的实现进度为68.28%(当时时间为2024年6月底)。如今不到3个月,我们可以再次刷新该评估,AGI实现进度已大幅提升至76.41%:
具体项进展说明如下:
主动注意能力:Qwen2-VL等多模态模型实现了动态分辨率的图像编码器,使图像编码后尽可能保留原始信息,从而可以借助Transformer的注意力机制实现主动注意[1]。该项进展从33%提升到60%。
思维规划能力:OpenAI o1模型通过强化学习训练模型使用思维链方式进行思考,取得明显的成果,该项进展从30%提升到60%。
行动规划能力:Cradle框架无需训练就能像人一样控制键盘鼠标,玩多种商业游戏并操作各种软件,不依赖内部API实现软件交互[2]。Sid项目通过1000多个智能体一同协作,在虚拟世界中构建起自己的经济、文化、宗教和政府[3]。该项进展从40%提升到60%。
形象思维能力:业界有两项重要突破,一是Video-of-Thought(视频思维链)通过引入时空场景图(STSG)作为思维链的中间表示,实现更强大的视觉推理能力[4]。二是Transfusion模型,通过将Transformer模型与Diffusion模型结合,能够生成高质量的图文并茂的内容[5]。加上可灵等商业视频生成模型的进步,可以将该项进展从30%提升到50%。
逻辑思维能力:OpenAI o1模型使该项进展从80%提升到95%。(之所以不是100%,是因为目前还只有OpenAI的官方测评,待第三方测评结果验证其推理能力的可靠性)
屏幕操作能力:Cradle框架将该项从80%提升到85%。
学习能力:OpenAI o1模型显示了使用强化学习方法,能够不依赖于大量的数据实现LLM的性能不断提升,这是一项重大突破。这种强化学习类似于AlphaZero的强化学习,而不是像RLHF那样的强化学习,RLHF只是通过人类反馈来训练LLM的输出更加符合人类喜好,但并不能提升LLM本身的核心能力,而AlphaZero的强化学习能够在不需要外部数据的情况下持续进化,不断提升性能。该项从67%提升到80%。
长期记忆能力:业界有三项重要突破:GraphRAG利用LLM生成知识图谱作为外置记忆,能够更好地提升模型的问答性能[6];Memory3以注意力层的key - value向量作为索引为大模型添加显式记忆,使其知识存储和提取更高效[7];TTT(Test-Time Training)架构使用ML模型作为RNN隐藏状态,实现更好的长上下文性能[8]。该项从75%提升到85%。
在 四种方法预测AGI实现时间 一文中,对2023年6月的AGI进度也做了评估,为52.93%。如果按照线性方式预测,AGI实现时间约为2026年初,约一年半以后:
如果考虑其加速效应,按幂函数方式拟合,则AGI实现时间约为2025年下半年,也就是大概一年以后。
留给人类的时间不多了。
本文链接:https://yunguke.com/chatgpt/396.html
chatgptplus完整使用教程chatgptplus使用教学chatgptplus多少钱chatgptplus怎么付费chatgptplus官网ChatGPT PRO
网友评论