DeepSeek的强化学习GRPO如何让大模型「集体顿悟」?
最近,香港科技大学、滑铁卢大学、清华大学等机构的研究者在arXiv提交预印本,首次揭示了大模型通过强化学习(Reinforcement Learning,RL)学会推理的机制。这项研究不仅解释了为什么强化学习能提升大语言模型(LLM)的推理能力,还提出了更强的HICRA算法。
论文链接
- [论文链接](https://arxiv.org/abs/2509.03646)
核心发现
1. 类人推理层次结构
研究发现,大模型在强化学习过程中,自然涌现出类人推理层次结构:高层策略规划与底层程序执行相分离。这种分层结构使得模型能够先巩固底层执行能力,再探索高层规划能力。
2. 两阶段学习动态
- 阶段1(底层技能巩固):模型专注于掌握基础能力,如格式规范、算术运算和变量替换。这一阶段体现为执行token的熵值下降。
- 阶段2(高层规划探索):模型转向高级规划,如选择新方法、回溯或识别关键定理。这一阶段体现为规划token的语义熵上升。
3. 「顿悟时刻」的解释
研究揭示,「顿悟时刻」并非偶然灵光,而是模型在「发现—掌握—强化」某种强力的高层策略(如自我反思)时的表现。当策略被纳入并稳定执行时,模型的表现会出现突跃式改善。
4. 「长度缩放」现象
随着模型探索到更丰富、更精细的策略,它自然会生成更长、更有结构的推理链条。这种「输出越长越准」的现象,本质上是高层规划能力增强的外在体现。
HICRA算法
为了加速模型探索和巩固策略的能力,研究团队提出了分层感知信用分配机制(HICRA)。与传统均匀分配学习权重不同,HICRA重点强化规划token的学习权重,从而加速模型探索和巩固策略的能力。
实验结果
实验表明,HICRA始终优于主流GRPO方法,且在模型已具备扎实执行技能时效果最佳。在多个纯文本及视觉语言模型中,HICRA不断超越强大的GRPO基线方法,显著验证了定向优化规划token的有效性。
结论
这项研究的核心启示在于:推理能力的真正突破源于规划能力的提升,而非仅仅优化执行细节。通过分层感知信用分配机制(HICRA),可以更有效地提升大语言模型的推理能力。
相关链接
- [论文链接](https://arxiv.org/abs/2509.03646)
- [高熵的「分岔token」](https://arxiv.org/abs/2506.01939)