Loading...
Loading...

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
STRATUS: A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds
Summary
在云规模系统中,故障并非常态中的例外,而是常态本身。一个分布式计算集群往往会经历数百次机器故障和数千次磁盘故障,而软件缺陷与配置错误的发生频率更高。随着云系统规模的持续扩大,对自主化、由 AI 驱动的可靠性工程的需求日益迫切,因为现有的人在环(human-in-the-loop)运维方式已难以跟上现代云环境的复杂性与规模。
本文提出 STRATUS,一种基于大语言模型(LLM)的多智能体系统,用于实现云服务的自主站点可靠性工程(Site Reliability Engineering,SRE)。STRATUS 由多个具备专门职能的智能体组成(例如故障检测、故障诊断与故障缓解),并以状态机的形式进行组织,从而支持系统级的安全推理与执行约束。
我们形式化定义了智能体化 SRE 系统(如 STRATUS)中的一项关键安全规范——事务性无回退(Transactional No-Regression,TNR),该规范使系统能够在保证安全的前提下进行探索与迭代。实验结果表明,TNR 能够有效提升自主故障缓解的效果。
在 AIOpsLab 与 ITBench(两套 SRE 基准测试集)上的评测显示,STRATUS 在故障缓解问题的成功率方面显著优于当前最先进的 SRE 智能体系统:在多种模型设置下,其性能至少提升了 1.5 倍。上述结果表明,STRATUS 为智能体系统在云可靠性领域的实际部署提供了一条极具前景的路径。
原文链接:https://arxiv.org/abs/2506.02009
No transcript available for this episode.

Seventy3