【第522期】TTT-Discover：通过测试时训练实现科学发现

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你有自己的论文要解读，或者推荐论文，请留言。

今天的主题是：

Learning to Discover at Test Time

Summary

我们如何利用 AI 为某个科学问题发现新的最先进（state-of-the-art）解法？此前关于测试时扩展（test-time scaling）的工作，例如 AlphaEvolve，是通过提示一个冻结（不再训练）的 LLM 来进行搜索。我们的做法是在测试阶段进行强化学习，使 LLM 在解决问题时仍然可以继续训练，但训练经验专门来自当前这个测试问题。

这种持续学习（continual learning）的形式非常特殊，因为它的目标并不是在平均意义上产生许多不错的解，而是找到一个非常优秀的解；并且是专门解决当前这个问题，而不是泛化到其他问题。因此，我们的学习目标和搜索子程序被设计为优先关注最有希望的解。我们将这种方法称为 Test-Time Training to Discover（TTT-Discover）。

沿用以往研究，我们重点关注**具有连续奖励（continuous rewards）**的问题。我们报告了所有尝试过的问题结果，涵盖以下领域：数学、GPU 内核工程、算法设计以及生物学。TTT-Discover 在几乎所有这些任务上都创造了新的最先进结果，包括：

Erdős 的最小重叠问题以及一个自相关不等式；
一个 GPUMode 内核竞赛（速度最高可达此前最佳结果的 2 倍）；
过去的 AtCoder 算法竞赛问题；
单细胞分析中的去噪问题。

我们的解决方案均由相关领域专家或比赛组织者进行了评审。所有结果都使用一个开源模型 OpenAI gpt-oss-120b 实现，并且可以通过我们公开发布的代码进行复现；相比之下，以往的最佳结果通常依赖于封闭的前沿模型。

我们的测试时训练实验通过 Thinking Machines 提供的 Tinker API 运行，每个问题的成本仅为几百美元。

原文链接：https://arxiv.org/abs/2601.16175

【第522期】TTT-Discover：通过测试时训练实现科学发现

About this Episode

今天的主题是：

Hosts & Guests

More from Seventy3

【第551期】AgentSkiller：面向通用智能体的全自动大规模合成数据框架

【第550期】AdaptEvolve：基于置信度自适应选择的进化智能体系统

【第549期】EchoJEPA：超声心动图潜在预测基础模型

【第548期】Agyn：基于多智能体协作的自主软件工程系统