Loading...
Loading...

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com
KARL: Knowledge Agents via Reinforcement Learning
Summary
我们提出了一套通过强化学习训练企业搜索智能体的系统,在多种难以验证的复杂搜索任务中达到了最先进的性能。本工作主要包含四个核心贡献:
第一,我们推出了 KARLBench,这是一个多能力的评估套件,涵盖了六种不同的搜索范式,包括:约束驱动的实体搜索、跨文档报告综合、表格数值推理、详尽实体检索、技术文档上的过程推理,以及内部企业笔记的事实聚合。
第二,我们证明了在异构搜索行为上训练的模型,其泛化能力显著优于针对单一基准测试优化的模型。
第三,我们开发了一套智能体化合成流水线,利用长程推理和工具调用来生成多样化、有依据且高质量的训练数据,并利用性能不断提升的模型进行迭代引导(bootstrapping)。
第四,我们提出了一种基于迭代大批量离策(off-policy)强化学习的新型后训练范式。该范式具有极高的样本效率,对训练与推理引擎之间的差异具有稳健性,并能自然扩展到具有分布外(OOD)泛化能力的多任务训练中。
与 Claude 4.6 和 GPT 5.2 相比,KARL 在 KARLBench 的成本-质量和延迟-质量权衡中达到了帕累托最优,涵盖了训练期间属于分布外的任务。在给予充足的测试时计算量(test-time compute)的情况下,它超越了最强的闭源模型。这些结果表明,量身定制的合成数据结合多任务强化学习,能够为可靠推理(grounded reasoning)构建高性价比且高性能的知识智能体。
原文链接:https://arxiv.org/abs/2603.05218
No transcript available for this episode.

Seventy3