【第490期】STRATUS：基于大语言模型的多智能体自主运维系统

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

今天的主题是：

STRATUS: A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds

Summary

在云规模系统中，故障并非常态中的例外，而是常态本身。一个分布式计算集群往往会经历数百次机器故障和数千次磁盘故障，而软件缺陷与配置错误的发生频率更高。随着云系统规模的持续扩大，对自主化、由 AI 驱动的可靠性工程的需求日益迫切，因为现有的人在环（human-in-the-loop）运维方式已难以跟上现代云环境的复杂性与规模。

本文提出 STRATUS，一种基于大语言模型（LLM）的多智能体系统，用于实现云服务的自主站点可靠性工程（Site Reliability Engineering，SRE）。STRATUS 由多个具备专门职能的智能体组成（例如故障检测、故障诊断与故障缓解），并以状态机的形式进行组织，从而支持系统级的安全推理与执行约束。

我们形式化定义了智能体化 SRE 系统（如 STRATUS）中的一项关键安全规范——事务性无回退（Transactional No-Regression，TNR），该规范使系统能够在保证安全的前提下进行探索与迭代。实验结果表明，TNR 能够有效提升自主故障缓解的效果。

在 AIOpsLab 与 ITBench（两套 SRE 基准测试集）上的评测显示，STRATUS 在故障缓解问题的成功率方面显著优于当前最先进的 SRE 智能体系统：在多种模型设置下，其性能至少提升了 1.5 倍。上述结果表明，STRATUS 为智能体系统在云可靠性领域的实际部署提供了一条极具前景的路径。

原文链接：https://arxiv.org/abs/2506.02009

【第490期】STRATUS：基于大语言模型的多智能体自主运维系统

About this Episode

今天的主题是：

Hosts & Guests

More from Seventy3

【第551期】AgentSkiller：面向通用智能体的全自动大规模合成数据框架

【第550期】AdaptEvolve：基于置信度自适应选择的进化智能体系统

【第549期】EchoJEPA：超声心动图潜在预测基础模型

【第548期】Agyn：基于多智能体协作的自主软件工程系统