【第519期】Focus智能体：LLM自主上下文压缩与内存管理

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你有自己的论文要解读，或者推荐论文，请留言。

今天的主题是：

Active Context Compression: Autonomous Memory Management in LLM Agents

Summary

由于“上下文膨胀”（Context Bloat）问题，大语言模型（LLM）智能体在长时程软件工程任务中面临显著挑战。随着交互历史不断增长，计算成本急剧上升，推理延迟增加，同时模型容易受到过往无关错误信息的干扰，导致推理能力下降。现有解决方案通常依赖被动的外部摘要机制，而智能体本身无法主动控制这一过程，因而限制了其自适应能力。

本文提出了 Focus，一种以智能体为中心的架构设计，其灵感来源于黏菌（Physarum polycephalum）的生物探索策略。Focus Agent 能够自主决定何时将关键经验整合为一个持久化的“Knowledge”模块，并主动撤回（剪枝）原始交互历史，从而实现动态上下文压缩与信息重组。

在实验设置中，作者采用符合工业最佳实践的优化执行框架（持久化 bash 环境 + 字符串替换编辑器），并在 SWE-bench Lite 的 N=5 个高上下文依赖任务实例上进行评估，使用模型 Claude Haiku 4.5。在鼓励频繁压缩的激进提示策略下，Focus 在保持相同准确率（两种方法均为 3/5 = 60%）的前提下，实现了 22.7% 的 token 使用量下降（从 1490 万降至 1150 万）。平均而言，每个任务执行 6 次自主压缩操作，个别实例的 token 节省幅度最高达 57%。

实验结果表明，只要赋予合适的工具接口与提示机制，具备能力的模型可以实现上下文的自主调节。这为构建具备成本意识（cost-aware）的智能体系统提供了新的路径，同时在不牺牲任务性能的情况下提升资源利用效率。

原文链接：https://arxiv.org/abs/2601.07190

【第519期】Focus智能体：LLM自主上下文压缩与内存管理

About this Episode

今天的主题是：

Hosts & Guests

More from Seventy3

【第551期】AgentSkiller：面向通用智能体的全自动大规模合成数据框架

【第550期】AdaptEvolve：基于置信度自适应选择的进化智能体系统

【第549期】EchoJEPA：超声心动图潜在预测基础模型

【第548期】Agyn：基于多智能体协作的自主软件工程系统