Loading...
Loading...

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你有自己的论文要解读,或者推荐论文,请留言。
Learning to Discover at Test Time
Summary
我们如何利用 AI 为某个科学问题发现新的最先进(state-of-the-art)解法?此前关于测试时扩展(test-time scaling)的工作,例如 AlphaEvolve,是通过提示一个冻结(不再训练)的 LLM 来进行搜索。我们的做法是在测试阶段进行强化学习,使 LLM 在解决问题时仍然可以继续训练,但训练经验专门来自当前这个测试问题。
这种持续学习(continual learning)的形式非常特殊,因为它的目标并不是在平均意义上产生许多不错的解,而是找到一个非常优秀的解;并且是专门解决当前这个问题,而不是泛化到其他问题。因此,我们的学习目标和搜索子程序被设计为优先关注最有希望的解。我们将这种方法称为 Test-Time Training to Discover(TTT-Discover)。
沿用以往研究,我们重点关注**具有连续奖励(continuous rewards)**的问题。我们报告了所有尝试过的问题结果,涵盖以下领域:数学、GPU 内核工程、算法设计以及生物学。TTT-Discover 在几乎所有这些任务上都创造了新的最先进结果,包括:
我们的解决方案均由相关领域专家或比赛组织者进行了评审。所有结果都使用一个开源模型 OpenAI gpt-oss-120b 实现,并且可以通过我们公开发布的代码进行复现;相比之下,以往的最佳结果通常依赖于封闭的前沿模型。
我们的测试时训练实验通过 Thinking Machines 提供的 Tinker API 运行,每个问题的成本仅为几百美元。
原文链接:https://arxiv.org/abs/2601.16175

Seventy3