【第576期】KARL：通过强化学习构建知识型智能体

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

KARL: Knowledge Agents via Reinforcement Learning

Summary

我们提出了一套通过强化学习训练企业搜索智能体的系统，在多种难以验证的复杂搜索任务中达到了最先进的性能。本工作主要包含四个核心贡献：

第一，我们推出了 KARLBench，这是一个多能力的评估套件，涵盖了六种不同的搜索范式，包括：约束驱动的实体搜索、跨文档报告综合、表格数值推理、详尽实体检索、技术文档上的过程推理，以及内部企业笔记的事实聚合。

第二，我们证明了在异构搜索行为上训练的模型，其泛化能力显著优于针对单一基准测试优化的模型。

第三，我们开发了一套智能体化合成流水线，利用长程推理和工具调用来生成多样化、有依据且高质量的训练数据，并利用性能不断提升的模型进行迭代引导（bootstrapping）。

第四，我们提出了一种基于迭代大批量离策（off-policy）强化学习的新型后训练范式。该范式具有极高的样本效率，对训练与推理引擎之间的差异具有稳健性，并能自然扩展到具有分布外（OOD）泛化能力的多任务训练中。

与 Claude 4.6 和 GPT 5.2 相比，KARL 在 KARLBench 的成本-质量和延迟-质量权衡中达到了帕累托最优，涵盖了训练期间属于分布外的任务。在给予充足的测试时计算量（test-time compute）的情况下，它超越了最强的闭源模型。这些结果表明，量身定制的合成数据结合多任务强化学习，能够为可靠推理（grounded reasoning）构建高性价比且高性能的知识智能体。

原文链接：https://arxiv.org/abs/2603.05218

【第576期】KARL：通过强化学习构建知识型智能体

About this Episode

今天的主题是：

More from Seventy3

【第579期】HyperAgents：AI自主重写源码进化

【第578期】FlashAttention-4：针对 Blackwell 架构的算法与内核协优设计

【第577期】Memex：基于索引经验记忆的长程大模型智能体量化策略

【第575期】尖峰、稀疏与汇聚：大模型异常激活解析