Loading...
Loading...

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com
Learning to Reason in 13 Parameters
Summary
最近的研究表明,语言模型可以通过强化学习(RL)学会“推理”。虽然部分研究采用低秩参数化来实现推理能力,但传统的 LoRA 无法将秩降低到模型维度以下。
我们质疑:即便秩为 1(Rank=1)的 LoRA 是否也是学习推理所必需的?为此,我们提出了 TinyLoRA。这是一种能将低秩适配器(Adapters)缩减至仅有一个参数规模的方法。
在这一全新的参数化框架下,我们仅通过训练 13 个 bf16 格式的参数(总计 26 字节),就能使 8B 规模的 Qwen2.5 模型在 GSM8K 测试集上达到 91% 的准确率。我们发现这一趋势具有普适性:在 AIME、AMC 和 MATH500 等一系列更具挑战性的“学习推理”基准测试中,我们仅需训练少 1000 倍的参数,即可恢复 90% 的性能提升。
值得注意的是,这种极强的性能表现仅能通过强化学习(RL)实现:使用有监督微调(SFT)训练的模型,若要达到相同的性能水平,所需的参数更新量要比前者大 100 到 1000 倍。
原文链接:https://arxiv.org/abs/2602.04118

Seventy3