以下是关于港科大、清华等团队在强化学习(RL)与大模型推理领域突破性研究的综合分析,结合搜索结果中的核心信息整理而成:
🔍 一、研究核心发现:RL让大模型推理“分层涌现”
研究团队(香港科技大学、清华大学、滑铁卢大学等)通过强化学习训练发现,大语言模型(LLM)的推理能力提升遵循分层涌现机制,即:
底层技能巩固阶段
模型优先学习基础执行能力(如算术计算、格式规范),表现为执行token的熵值显著下降,模型对低级操作的确定性增强13。
此阶段类似于人类掌握“肌肉记忆”,为高层策略奠定基础。
高层策略规划阶段
当底层技能稳定后,模型转向探索高级策略(如反思、回溯、定理识别),规划token的语义熵(多样性)持续上升3。
此阶段伴随推理准确率提升和“长度缩放效应”(模型主动延长思考链解决复杂问题)13。
💡 二、破解两大“神秘现象”的科学解释
“顿悟时刻”的本质
并非随机事件,而是模型掌握高层策略的标志(例如自我反思、错误修正)。
当策略被纳入稳定执行流程时,模型表现出现突跃式提升137。
“长度缩放效应”的成因
模型通过强化学习自发延长思考链,以应对更复杂问题。
规划token多样性的增加直接关联解决方案链条的扩展35。
⚙️ 三、技术突破:分层感知信用分配(HICRA)
基于分层推理机制,团队提出创新算法:
HICRA算法:在RL训练中差异化分配学习权重,重点强化规划token的学习效率,加速高层策略的探索与巩固136。
效果验证:
在模型底层技能扎实时,HICRA显著优于主流GRPO方法;
若执行基础薄弱,则需优先补足底层能力36。
🌐 四、研究意义与行业影响
理论价值:首次揭示RL提升推理能力的机制,将“黑箱”转化为可解释的分层动力学模型37。
技术前景:
证明纯强化学习(无需监督微调SFT)可激发长思维链能力57;
为构建“人类级规划能力”的通用AI提供新路径