今天的主题是：

Rethinking the Value of Multi-Agent Workflow: A Strong Single Agent Baseline

Summary

最近基于大型语言模型（LLM）的多智能体系统（Multi-Agent Systems, MAS）取得了显著进展。研究表明，由多个 LLM 智能体组成的工作流——每个智能体具有不同的角色、工具和通信模式——在复杂任务上可以优于单一 LLM 的基线方法。

然而，大多数现有框架实际上是同质（homogeneous）的：所有智能体使用同一个基础 LLM，只是在提示词、工具使用方式以及在工作流中的位置上有所不同。这就引出了一个问题：这样的工作流是否可以通过一个单一智能体在多轮对话中进行模拟？

我们在 七个基准测试上对此进行了研究，这些基准涵盖：

实验结果表明：
一个单一智能体可以达到同质多智能体工作流的性能，同时由于能够复用 KV cache（键值缓存），在推理效率上具有优势。进一步地，它甚至能够匹配**自动优化的异构工作流（heterogeneous workflow）**的性能。

基于这一发现，我们提出了 OneFlow 算法。该算法可以自动将多智能体工作流转换为适用于单一智能体执行的形式。与现有的自动化多智能体设计框架相比，OneFlow 在不降低准确率的情况下显著降低推理成本。

这些结果表明：用单一 LLM 实现多智能体工作流可以作为多智能体系统研究中的一个强有力基线（baseline）。

同时我们也指出，单一 LLM 方法仍然存在局限：由于不同 LLM 之间无法共享 KV cache，单模型方案无法真正模拟异构（heterogeneous）工作流。这也表明未来仍然存在重要研究机会，即开发真正异构的多智能体系统。

原文链接：https://arxiv.org/abs/2601.12307