【LLM】OpenAI o1模型和相关技术
Note
- OpenAI o1 模型中推理过程的工作原理
- 1、o1模型引入了reasoning tokens。这些token用于"思考",帮助模型分解对提示的理解,并考虑生成回应的多种方法。
- 2、在生成推理token后,模型会产生一个可见的完成token作为答案,同时从上下文中丢弃推理token。
- OpenAI o1 运用的技术关键还是在于强化学习的搜索与学习机制,基于 LLM 已有的推理能力,迭代式的 Bootstrap 模型产生合理推理过程(Rationales) 的能力,并将 Rationales 融入到训练过程内,让模型学会进行推理,而后再运用足够强大的计算量实现 Post-Training 阶段的 Scaling。类似于 STaR [1] 的扩展版本。
- 注意这里合理推理过程并不只是对问题的拆解和分步作答,还有对于为什么如此作答的分析和思考。
- 三个技术要点:
- 后训练扩展律 Post-Training Scaling Laws 已经出现,并且 Post-Training Scaling Laws 为上述技术路径的成功提供了有力支持。
- 模型学习的是产生合理推理的过程,MCTS 在其中的作用是诱导合理推理过程的产生或构建相应的偏序对形成细粒度奖励信号,而非直接搜索过程和最终答案。
- 模型的 BootStrap 有助于构建新的高质量数据,并且新的 Rationales 数据促进了模型进一步提升能力。
文章目录
- Note
- 一、Openai o1模型效果
- 二、合理使用强化学习的探索
- 1. 思维链(Chain of Thought, CoT)
- 2. Quiet-STaR:内部思维
- 3. 内容总结
- 三、Openai o1的影响
- 四、Openai o1技术报告的思维导图
- Reference
一、Openai o1模型效果
最新的发布的 OpenAI o1 在数学代码等复杂推理能力上取得巨大进步,在竞争性编程问题 (Codeforces) 中排名第 89 个百分位,在美国数学奥林匹克竞赛 (AIME) 资格赛中跻身美国前 500 名学生之列,在物理、生物和化学问题的基准 (GPQA) 上超过了人类博士水平的准确性。
关键:Post-Training 阶段 RL 计算量的 Scaling 和测试推理阶段思考时间的 Scaling。
二、合理使用强化学习的探索
1. 思维链(Chain of Thought, CoT)
通过思维链(Chain of Thought, CoT)优化模型输出。CoT 通过分步推理的方式,要求模型在生成最终答案之前,先生成一系列中间推理步骤。这种 “思考链” 的生成过程有助于增强模型的推理能力,尤其在数学和代码生成等任务中表现出色。
2. Quiet-STaR:内部思维
可能得两种做法:
- 学习合理的中间推理过程 Rationales:包括在 Token 级别或子句级别提供奖励信号,帮助模型调整生成的回答。这些方法如蒙特卡洛树搜索(MCTS),将输出建模为一系列节点,这些节点可以是 Token 级别或句子级别。例如:
- Token 级别的节点:每个节点对应生成序列中的一个 Token。通过 MCTS,模型可以探索不同的 Token 序列,最终生成更连贯的响应。
- 句子级别的节点:在复杂推理任务中,每个节点可以代表一个完整的句子或推理步骤,帮助模型更好地处理多步推理任务。
- 思维链(Chain of Thought, CoT)优化模型输出:针对 STaR 的局限性,Quiet-STaR [7] 提出 “内部思维” 的概念,将显式的 Rationales(中间 CoT 推理过程) 推理过程转化为模型内部隐式的推理过程,从而摆脱对于外部示例的依赖。
STaR 的核心思路是利用 LLM 已有的推理能力,迭代式的 Bootstrap 模型产生合理推理过程(Rationales) 的能力,并将 Rationales 融入到训练过程内,让模型学会进行推理。
Quiet-STaR:
- 引入可学习的
<|startofthought|>
和<|endofthought|>
token 来标记思维的开始和结束。 - Quiet-STaR 还实现了在更一般文本上的推理学习,这意味着大量复杂任务下的非结构化语料(如医疗、金融等领域)都可以被加入学习过程。同时利用带推理过程的结果与真实结果的分布差异引入奖励信号,通过
REINFORCE
的方法优化生成的推理,使得基于这些推理的模型预测未来的 tokens 更为准确。
就目前来看,STaR 和 Quiet-STaR 是最接近 o1 的技术路线和模型表现效果的,但是如果想要进一步达到 OpenAI o1 的效果,还需要克服很多问题。
3. 内容总结
- RL + “隐式思维链”:o1 模型使用 RL 进行训练,通过引入动态的 Reasoning Token,从而启发 “隐式思维链” 来 “思考” 问题,思考时间越长,推理能力越强!
- 推理时间 = 新的扩展维度:o1 模型的发布,意味着 AI 能力的提升不再局限于预训练阶段,还可以通过在 Post-Training 阶段中提升 RL 训练的探索时间和增加模型推理思考时间来实现性能提升,即 Post-Training Scaling Laws。
- 数据飞轮 + Bootstrap -> SuperIntelligence : 基于自我反思的模型将能够实现自举 Bootstrap,并提升大大提升模型对于未见过的复杂问题的解决能力,模型的推理过程形成大量高质量数据的飞轮,并最终有可能向 SuperIntelligence 更进一步。
三、Openai o1的影响
基于把Cot能力拉满,(可能用RL让COT稳定,不出太多dummy和错误的内容),认知能力的提升体现在:
1、解决复杂数学问题
2、基于复杂逻辑的编程任务
3、多步骤条件推理任务
4、其他基于逻辑的任务,比如逻辑创作能力。
对于提示词工程的影响:o1 模型无需复杂的提示词(提示词工程师又不存在了?)
1、新版o1 内置了Agent和思维链,能自主判断思考结果的正确性,无需人工添加思维链。
2、o1 善于提供清晰指令,用更精简的提示词和检索上下文解决问题。可使用Lisp等语言进行分隔,使层次更分明(虽然不用应该可以达到同样效果)
3、许多原本需要拆解为多步骤Agent工作流的任务,现在可能通过一个API调用就能完成。
思考对于AI产品设计,转变:
应用场景可能从实时协作/聊天机器人转向更多异步或本质上就很复杂的多步骤任务处理(用户愿意为此付出更高成本)。例如:
1、取代QA/管理系统:编写全面的长期用例或企业后台管理。
2、为游戏开发者、竞赛组织者、科研人员设计实验或模拟环境。
3、让类人机器人执行一些人类难以生存环境中的任务(具身智能的突破)。
4、异步处理复杂代码库的重构,解决团队技术债务问题。
5、理解整个代码库,实现自动化的测试覆盖率提升、工具链开发、代码审查。
使用方面:
四、Openai o1技术报告的思维导图
Reference
[1] STaR: Bootstrapping Reasoning With Reasoning https://arxiv.org/abs/2203.14465
[2] LLM Critics Help Catch LLM Bugshttps://arxiv.org/pdf/2407.00215
[3] Self-critiquing models for assisting human evaluatorshttps://arxiv.org/pdf/2206.05802
[4] OpenAI o1 System Cardhttps://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf
[5] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parametershttps://arxiv.org/abs/2408.03314
[6] Training Verifiers to Solve Math Word Problems https://arxiv.org/pdf/2110.14168[
7] Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking https://arxiv.org/abs/2403.09629
[8] AI Control: Improving Safety Despite Intentional Subversion https://arxiv.org/abs/2312.06942
[9] Sycophancy to Subterfuge: Investigating Reward Tampering in Language Models https://arxiv.org/abs/2406.10162
[10] AI Alignment: A Comprehensive Survey https://arxiv.org/abs/2310.19852
[11] 北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式
[12] 280页PDF,全方位评估OpenAI o1,Leetcode刷题准确率竟这么高
[13] OpenAI o1 技术报告发布!快来学习