【第538期】TinyLoRA：仅需13个参数的学习推理之旅

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。

合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

Learning to Reason in 13 Parameters

Summary

最近的研究表明，语言模型可以通过强化学习（RL）学会“推理”。虽然部分研究采用低秩参数化来实现推理能力，但传统的 LoRA 无法将秩降低到模型维度以下。

我们质疑：即便秩为 1（Rank=1）的 LoRA 是否也是学习推理所必需的？为此，我们提出了 TinyLoRA。这是一种能将低秩适配器（Adapters）缩减至仅有一个参数规模的方法。

在这一全新的参数化框架下，我们仅通过训练 13 个 bf16 格式的参数（总计 26 字节），就能使 8B 规模的 Qwen2.5 模型在 GSM8K 测试集上达到 91% 的准确率。我们发现这一趋势具有普适性：在 AIME、AMC 和 MATH500 等一系列更具挑战性的“学习推理”基准测试中，我们仅需训练少 1000 倍的参数，即可恢复 90% 的性能提升。

值得注意的是，这种极强的性能表现仅能通过强化学习（RL）实现：使用有监督微调（SFT）训练的模型，若要达到相同的性能水平，所需的参数更新量要比前者大 100 到 1000 倍。

原文链接：https://arxiv.org/abs/2602.04118

【第538期】TinyLoRA：仅需13个参数的学习推理之旅

About this Episode

今天的主题是：

Hosts & Guests

More from Seventy3

【第551期】AgentSkiller：面向通用智能体的全自动大规模合成数据框架

【第550期】AdaptEvolve：基于置信度自适应选择的进化智能体系统

【第549期】EchoJEPA：超声心动图潜在预测基础模型

【第548期】Agyn：基于多智能体协作的自主软件工程系统