【第577期】Memex：基于索引经验记忆的长程大模型智能体量化策略

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

Summary

在大语言模型（LLM）智能体执行长程任务时，有限的上下文窗口是一个根本性的瓶颈。随着执行轨迹的增长，在上下文中保留工具输出和中间推理很快变得不可行：工作上下文会变得过长，最终超过上下文预算，并且即使久远的信息仍然存在，也难以被有效利用。现有的解决方案通常通过截断或生成运行摘要来缩短上下文，但这些方法在本质上是有损的，因为它们压缩或丢弃了过去的证据本身。

我们引入了 Memex，一种索引式的经验记忆机制，它在压缩上下文的同时并不丢弃证据。Memex 维护一个紧凑的工作上下文，由简练的结构化摘要和稳定的索引组成，同时将完整的、保真的底层交互存储在这些索引下的外部经验数据库中。智能体随后可以自行决定何时对索引进行解引用（dereference），以恢复当前子目标所需的精确历史证据。

我们利用强化学习框架 MemexRL 优化了写入和读取行为。该框架采用了针对上下文预算下索引记忆使用而定制的奖励塑造（reward shaping），使智能体学会什么需要摘要、什么需要归档、如何对其进行索引以及何时进行检索。这产生了一种比仅摘要方法损耗显著更低的长程记忆形式。

我们进一步提供了一项理论分析，表明 Memex 循环具有在保持有效上下文计算量有界的同时，通过有界的解引用来保持决策质量的潜力，即使历史记录在不断增长。在具有挑战性的长程任务上的实证结果表明，使用 MemexRL 训练的 Memex 智能体在提高任务成功率的同时，显著减少了工作上下文的使用。

原文链接：https://arxiv.org/abs/2603.04257

【第577期】Memex：基于索引经验记忆的长程大模型智能体量化策略

About this Episode

今天的主题是：

More from Seventy3

【第579期】HyperAgents：AI自主重写源码进化

【第578期】FlashAttention-4：针对 Blackwell 架构的算法与内核协优设计

【第576期】KARL：通过强化学习构建知识型智能体

【第575期】尖峰、稀疏与汇聚：大模型异常激活解析