武当休闲山庄 - 稳定,和谐,人性化的中文社区

查看完整版本: [-- 顿悟不是玄学！港科大清华等联手：撕开推理黑箱，RL让AI像人思考 --]

武当休闲山庄 -> 数码讨论 -> 顿悟不是玄学！港科大清华等联手：撕开推理黑箱，RL让AI像人思考 [打印本页]

登录 -> 注册 -> 回复主题 -> 发表主题

姜谷粉丝

2025-10-07 09:55

新智元报道
编辑：KingHZ
【新智元导读】DeepSeek的强化学习GRPO为什么能让大模型「集体顿悟」？港科大、滑铁卢、清华等团队最新研究给出统一解释：在RL中，LLM推理自发分层——先巩固底层「执行」，再探索高层「规划」。基于此，还提出了更强HICRA算法。
众所周知，强化学习（Reinforcement Learning，RL）能提升大语言模型LLM的推理能力。
但没人说清楚：为什么会这样？
最近，香港科技大学、滑铁卢大学、清华大学等机构的研究者在arXiv提交预印本，首次揭示：
大模型正在以类人的方式学会推理——通过将高层策略规划与底层程序执行相分离。

论文链接：https://arxiv.org/abs/2509.03646
DeepSeek究竟如何让LLM学会推理？
强化学习（RL）虽已成为提升LLM复杂推理能力的颠覆性技术，但其内在机制始终不甚明朗。
在论文中，DeepSeek研究团队强调了强化学习的重要性：
大模型与强化学习环境交互，自然涌现出反思和重新评估（reflection）之类的行为。
他们给出了两条重要实验线索：「长度缩放效应」（length-scaling）和「顿悟时刻」（aha moment）。
在训练过程中，DeepSeek-R1-Zero的思考时长持续增长，自然而然地学会了用更多的思考时间来解决推理任务，如下图所示。

在强化学习（RL）过程中，DeepSeek-R1-Zero在训练集上的平均响应长度
在DeepSeek-R1-Zero的某个中间版本中，AI出乎意料地进入了「顿悟时刻」。他们认为这是强化学习的「力与美」。

DeepSeek-R1-Zero的中间版本展现了一个有趣的「顿悟时刻」：该模型学会了采用拟人化的方式来表达思考过程
这些现象如此奇特，被多家实验室复现。
为什么呢？为什么强化学习能提升LLM的推理能力？这些问题之前无人明确解释。
这次的研究突破性地揭示：
像「顿悟时刻」这类令人困惑的现象并不是孤立的事件，而是新兴推理层次结构的标志，类似于人类认知中高层次策略规划与低层次程序执行的分隔。
这一次揭示了强化学习推动推理能力提升的核心机制：模型先固化基础执行能力，再自主发展出策略规划能力。
阶段1（底层技能巩固）：以执行tokens（execution tokens）的熵值下降为标志，模型专注于巩固低级技能（如算术计算、格式规范）。
阶段2（高层规划探索）：学习重心转向高级规划，以规划tokens（planning tokens）的语义多样性提升为特征，模型持续增强推理能力并出现长度缩放效应（length scaling）。

图1：（左图）大语言模型的推理过程呈现出类人的层次化推理结构：高层策略规划与底层程序执行。（右图）在强化学习训练中，层次化推理通过两阶段动态过程涌现
研究者通过区分两类token验证这种转变：执行token对应具体操作步骤，规划token则体现为「尝试其他方法」等策略性表达。
他们发现，当模型掌握执行token后，规划token的多样性显著增加，这与推理能力提升及解决方案链条延长直接相关。
基于此，团队提出分层感知信用分配机制（HICRA）。
与传统均匀分配学习权重不同，HICRA重点强化规划token的学习权重，从而加速模型探索和巩固策略的能力。
实验表明，HICRA始终优于主流GRPO方法，且在模型已具备扎实执行技能时效果最佳——若执行基础薄弱，HICRA的优势则难以发挥。
这项研究的核心启示在于：推理能力的真正突破源于规划能力的提升，而非仅仅优化执行细节。
强化学习增强推理的两阶段动力学
实验分析表明，经强化学习训练的大语言模型并非整体性提升，而是遵循一种"性能瓶颈"随时间转移的两阶段学习动态。
第一阶段：锻造可靠程序引擎
初期，模型专注于掌握基础能力。它学习可靠地执行低级操作步骤，如格式规范、算术运算和变量替换。
这一阶段体现为「执行token」的不确定性（困惑度及token熵）急剧下降。

RL训练动力学：执行token的熵（图中灰色线）下降，而规划token的语义熵（图中红色线）上升
研究者追踪了代表性模型家族的训练动态曲线。
上图前两列显示，模型初始聚焦于程序巩固阶段，表现为执行token的模型困惑度（更高置信度）和token熵（更确定性）急剧下降。
随后发生向策略规划探索的转变（第三列），规划策略的多样性（语义熵）在Qwen模型上持续增长，或在Llama模型上出现拐点后增长，这与准确率持续提升及推理链延长（第四列）密切相关。
对于强模型或易学习数据，此阶段可能短暂甚至不存在，因为模型已具备可靠的基础低级技能，通常仅需对格式token进行最小调整。
第二阶段：掌握高级策略规划
当模型在低级技能上奠定坚实基础后，学习前沿发生转移。性能提升转为由探索和掌握高级策略驱动——例如选择新方法、回溯或识别关键定理。
通过测量规划token的语义熵，这次研究验证了这一转变。其中的语义熵用于反映模型高级策略计划的多样性。
规划token的语义熵（红线，第三列）从开始或拐点处持续上升，这种增长与推理准确率提升和长度缩放效应同步发生。
这表明策略正在主动扩展其策略计划库，以实现推理能力的持续提升。这与程序巩固阶段token级熵的急剧下降形成鲜明对比。
揭秘「神秘的现象」
这次的分层框架为强化学习训练中一些长期让人困惑的现象，提供了统一而清晰的解释：
1、「顿悟时刻」并非偶然灵光。
这类转折并不是随机爆发的才思，而是某种行为特征信号：模型在「发现—掌握—强化」某种强力的高层策略（如自我反思）
当策略被纳入并稳定执行时，模型的表现会出现突跃式改善。
2、「长度缩放」源于更好的规划。
随着模型探索到更丰富、更精细的策略（包括分类讨论、预先规划、回溯等），它自然会生成更长、更有结构的推理链条；而这类更长的输出，往往意味着更高的成功率与更好的表现。
换言之，「输出越长越准」的现象，本质是高层规划能力增强的外在体现。
3、复杂的「熵」变化，其实并不神秘。
整体的token级熵常见下降，并非模型「变笨」，而是因为数量庞大的执行类词元（格式、算术、替换等）在训练中变得高度可预测，把总体曲线往下拉。
真正反映策略探索进展的，是高层规划词元的语义熵：它随训练逐步上升，准确刻画出模型在发明与扩充策略谱系方面的探索步伐。
归结起来：第一阶段通过降低执行不确定性「打好基本功」，第二阶段通过提升规划多样性「把思路打开」。这些看似各自为政的现象，其实都出自同一套分层学习动力学。
这一发现揭示了当前RL方法（如GRPO）的核心低效问题：
它们对所有token施加无差别优化压力，稀释了学习信号。
既然高级推理的关键在于掌握策略，为何还要在已掌握的程序性步骤上浪费精力？
为解决此问题，研究者提出了一种新算法HICRA（Hierarchy-Aware Credit Assignment，分层感知信用分配），其核心设计理念是：
将模型的学习能力聚焦于稀疏但高价值的规划token。
分层感知信用分配
聚焦关键要素
通过放大策略举措的学习信号，HICRA加速了有效推理模式的发现与强化进程。
实验结果，效果惊人：定向优化规划全赢了！
在多个纯文本及视觉语言模型中，HICRA不断超越强大的GRPO基线方法，显著验证了定向优化规划token的有效性。

表1：在多项数学推理基准测试中，HICRA、GRPO与基座模型的性能对比。

表2：在多模态推理基准测试中，HICRA与GRPO的性能对比
为探究强化学习最有效的应用方向，这次分析了失败推演中错误类型的演变规律。
首先通过人工审查失败案例，归纳出四种不同的错误成因。
随后使用GPT-4o通过多选题形式将每个失败案例归类到对应成因，最后将这些分类解析为两大范畴：「规划与策略」（如逻辑缺陷、高层计划错误）和「其他错误」（如计算失误、事实检索错误）。
分析表明，强化学习（RL）的主要优势在于修正高层策略失误，而非细微的计算错误。

这也激发了HICRA的设计理念，即将学习重点集中在规划token上。
如下图5所示，HICRA的成功与其维持比GRPO更高的语义熵水平密切相关。
这种高层策略的更高多样性，直接与更强且更稳定的验证准确率相关联，证实了专注的策略探索是推理能力改进的主要驱动力。

何种指标能有效追踪策略探索？
准确衡量策略探索，对于诊断策略学习至关重要。
然而，这次发现诸如token级熵值等常用指标可能产生误导。
1、token级熵值的缺陷：该指标有时会收敛至较低水平，被实践者误判为「崩溃」。但这是错误的。
大量低层执行token主导了token级熵值，而这些token本身就会趋于可预测化（即低熵状态）。低层token的熵值下降，会拉低全局平均熵值，但这并不意味探索停止。相反，只要语义熵保持高位，就说明模型正在积极探索新高阶策略，且性能持续提升。
2、Pass@K指标的盲点：该通过K次尝试成功率衡量的指标，有时会饱和（例如所有查询都可能被解决），导致无法区分方法优劣或追踪训练后期的持续学习动态。
语义熵有效规避了这些缺陷。它直接衡量有意义策略方案的多样性。
如下图所示，语义熵始终保持强大区分力：当token熵值崩溃且Pass@8饱和时，仍能清晰显示HICRA持续的策略探索优势。这使其成为追踪真正推理发展的可靠指南。

token熵值（最右）崩溃且Pass@8（右二）饱和失效时，语义熵（最左）仍明确显示HICRA的持续探索优势，该优势与最终准确率提升正相关。
现有研究提出使用高熵的「分岔token」作为模型推理过程中决策点的代理指标。

链接：https://arxiv.org/abs/2506.01939
这类基于熵的token与基于功能定义的规划token之间，到底什么关系？
研究发现关键不对称性：
虽然大部分规划token确实呈现高熵特性（符合策略选择的预期），但反向关系并不成立。
大多数高熵token并非规划token，它们往往对应表述方式的简单变异或不影响整体策略的低层计算。
这揭示了仅依靠熵值识别具有精确语义功能token的局限性。
虽然功能定义的规划token大多具有高熵特性（下图左），但高熵token并非规划token的有效代理指标，因其多数承担其他功能（下图右）。

姜谷粉丝

2025-10-07 09:56

以下是关于港科大、清华等团队在强化学习（RL）与大模型推理领域突破性研究的综合分析，结合搜索结果中的核心信息整理而成：

🔍 一、研究核心发现：RL让大模型推理“分层涌现”
研究团队（香港科技大学、清华大学、滑铁卢大学等）通过强化学习训练发现，大语言模型（LLM）的推理能力提升遵循分层涌现机制，即：

底层技能巩固阶段

模型优先学习基础执行能力（如算术计算、格式规范），表现为执行token的熵值显著下降，模型对低级操作的确定性增强13。
此阶段类似于人类掌握“肌肉记忆”，为高层策略奠定基础。
高层策略规划阶段

当底层技能稳定后，模型转向探索高级策略（如反思、回溯、定理识别），规划token的语义熵（多样性）持续上升3。
此阶段伴随推理准确率提升和“长度缩放效应”（模型主动延长思考链解决复杂问题）13。
💡 二、破解两大“神秘现象”的科学解释
“顿悟时刻”的本质

并非随机事件，而是模型掌握高层策略的标志（例如自我反思、错误修正）。
当策略被纳入稳定执行流程时，模型表现出现突跃式提升137。
“长度缩放效应”的成因

模型通过强化学习自发延长思考链，以应对更复杂问题。
规划token多样性的增加直接关联解决方案链条的扩展35。
⚙️ 三、技术突破：分层感知信用分配（HICRA）
基于分层推理机制，团队提出创新算法：

HICRA算法：在RL训练中差异化分配学习权重，重点强化规划token的学习效率，加速高层策略的探索与巩固136。
效果验证：
在模型底层技能扎实时，HICRA显著优于主流GRPO方法；
若执行基础薄弱，则需优先补足底层能力36。
🌐 四、研究意义与行业影响
理论价值：首次揭示RL提升推理能力的机制，将“黑箱”转化为可解释的分层动力学模型37。
技术前景：
证明纯强化学习（无需监督微调SFT）可激发长思维链能力57；
为构建“人类级规划能力”的通用AI提供新路径

jjybzxw

2025-10-07 14:31

DeepSeek的强化学习GRPO如何让大模型「集体顿悟」？

最近，香港科技大学、滑铁卢大学、清华大学等机构的研究者在arXiv提交预印本，首次揭示了大模型通过强化学习（Reinforcement Learning，RL）学会推理的机制。这项研究不仅解释了为什么强化学习能提升大语言模型（LLM）的推理能力，还提出了更强的HICRA算法。

论文链接
- [论文链接](https://arxiv.org/abs/2509.03646)

核心发现

1. 类人推理层次结构
研究发现，大模型在强化学习过程中，自然涌现出类人推理层次结构：高层策略规划与底层程序执行相分离。这种分层结构使得模型能够先巩固底层执行能力，再探索高层规划能力。

2. 两阶段学习动态
- 阶段1（底层技能巩固）：模型专注于掌握基础能力，如格式规范、算术运算和变量替换。这一阶段体现为执行token的熵值下降。
- 阶段2（高层规划探索）：模型转向高级规划，如选择新方法、回溯或识别关键定理。这一阶段体现为规划token的语义熵上升。

3. 「顿悟时刻」的解释
研究揭示，「顿悟时刻」并非偶然灵光，而是模型在「发现—掌握—强化」某种强力的高层策略（如自我反思）时的表现。当策略被纳入并稳定执行时，模型的表现会出现突跃式改善。

4. 「长度缩放」现象
随着模型探索到更丰富、更精细的策略，它自然会生成更长、更有结构的推理链条。这种「输出越长越准」的现象，本质上是高层规划能力增强的外在体现。

HICRA算法
为了加速模型探索和巩固策略的能力，研究团队提出了分层感知信用分配机制（HICRA）。与传统均匀分配学习权重不同，HICRA重点强化规划token的学习权重，从而加速模型探索和巩固策略的能力。

实验结果
实验表明，HICRA始终优于主流GRPO方法，且在模型已具备扎实执行技能时效果最佳。在多个纯文本及视觉语言模型中，HICRA不断超越强大的GRPO基线方法，显著验证了定向优化规划token的有效性。

结论
这项研究的核心启示在于：推理能力的真正突破源于规划能力的提升，而非仅仅优化执行细节。通过分层感知信用分配机制（HICRA），可以更有效地提升大语言模型的推理能力。

相关链接
- [论文链接](https://arxiv.org/abs/2509.03646)
- [高熵的「分岔token」](https://arxiv.org/abs/2506.01939)

查看完整版本: [-- 顿悟不是玄学！港科大清华等联手：撕开推理黑箱，RL让AI像人思考 --] [-- top --]

Powered by www.wdsz.net v8.7.1 Code ©2005-2018www.wdsz.net
Gzip enabled