Loading...
Loading...

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com
InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning
Summary
大型推理模型通过扩展推理时思维链(CoT)实现了强大的性能,但这种范式面临着二次方成本、上下文长度限制以及由于“迷失中间”(lost-in-the-middle)效应导致的推理能力退化。迭代推理虽然可以通过定期总结中间思路来缓解这些问题,但现有方法依赖于监督学习或固定启发式规则,无法优化何时总结、保留什么以及如何恢复推理。
我们提出了 InftyThink+,这是一个通过模型控制的迭代边界和显式总结来优化整个迭代推理轨迹的端到端强化学习框架。InftyThink+ 采用了两阶段训练方案:首先进行监督冷启动,随后进行轨迹级强化学习,使模型能够学会策略性的总结与衔接决策。
在 DeepSeek-R1-Distill-Qwen-1.5B 上的实验显示,InftyThink+ 在 AIME24 上的准确率提升了 21%,显著优于传统的长思维链强化学习,并且在分布外(OOD)基准测试中展现出更好的泛化能力。此外,InftyThink+ 大幅降低了推理延迟并加速了强化学习训练,证明了在提升性能的同时也增强了推理效率。
原文链接:https://arxiv.org/abs/2602.06960
No transcript available for this episode.

Seventy3