姜谷粉丝 |
2025-10-07 09:56 |
以下是关于港科大、清华等团队在强化学习(RL)与大模型推理领域突破性研究的综合分析,结合搜索结果中的核心信息整理而成:
🔍 一、研究核心发现:RL让大模型推理“分层涌现” 研究团队(香港科技大学、清华大学、滑铁卢大学等)通过强化学习训练发现,大语言模型(LLM)的推理能力提升遵循分层涌现机制,即:
底层技能巩固阶段
模型优先学习基础执行能力(如算术计算、格式规范),表现为执行token的熵值显著下降,模型对低级操作的确定性增强13。 此阶段类似于人类掌握“肌肉记忆”,为高层策略奠定基础。 高层策略规划阶段
当底层技能稳定后,模型转向探索高级策略(如反思、回溯、定理识别),规划token的语义熵(多样性)持续上升3。 此阶段伴随推理准确率提升和“长度缩放效应”(模型主动延长思考链解决复杂问题)13。 💡 二、破解两大“神秘现象”的科学解释 “顿悟时刻”的本质
并非随机事件,而是模型掌握高层策略的标志(例如自我反思、错误修正)。 当策略被纳入稳定执行流程时,模型表现出现突跃式提升137。 “长度缩放效应”的成因
模型通过强化学习自发延长思考链,以应对更复杂问题。 规划token多样性的增加直接关联解决方案链条的扩展35。 ⚙️ 三、技术突破:分层感知信用分配(HICRA) 基于分层推理机制,团队提出创新算法:
HICRA算法:在RL训练中差异化分配学习权重,重点强化规划token的学习效率,加速高层策略的探索与巩固136。 效果验证: 在模型底层技能扎实时,HICRA显著优于主流GRPO方法; 若执行基础薄弱,则需优先补足底层能力36。 🌐 四、研究意义与行业影响 理论价值:首次揭示RL提升推理能力的机制,将“黑箱”转化为可解释的分层动力学模型37。 技术前景: 证明纯强化学习(无需监督微调SFT)可激发长思维链能力57; 为构建“人类级规划能力”的通用AI提供新路径 |
|