Loading...
Loading...

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com
Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory
Summary
在大语言模型(LLM)智能体执行长程任务时,有限的上下文窗口是一个根本性的瓶颈。随着执行轨迹的增长,在上下文中保留工具输出和中间推理很快变得不可行:工作上下文会变得过长,最终超过上下文预算,并且即使久远的信息仍然存在,也难以被有效利用。现有的解决方案通常通过截断或生成运行摘要来缩短上下文,但这些方法在本质上是有损的,因为它们压缩或丢弃了过去的证据本身。
我们引入了 Memex,一种索引式的经验记忆机制,它在压缩上下文的同时并不丢弃证据。Memex 维护一个紧凑的工作上下文,由简练的结构化摘要和稳定的索引组成,同时将完整的、保真的底层交互存储在这些索引下的外部经验数据库中。智能体随后可以自行决定何时对索引进行解引用(dereference),以恢复当前子目标所需的精确历史证据。
我们利用强化学习框架 MemexRL 优化了写入和读取行为。该框架采用了针对上下文预算下索引记忆使用而定制的奖励塑造(reward shaping),使智能体学会什么需要摘要、什么需要归档、如何对其进行索引以及何时进行检索。这产生了一种比仅摘要方法损耗显著更低的长程记忆形式。
我们进一步提供了一项理论分析,表明 Memex 循环具有在保持有效上下文计算量有界的同时,通过有界的解引用来保持决策质量的潜力,即使历史记录在不断增长。在具有挑战性的长程任务上的实证结果表明,使用 MemexRL 训练的 Memex 智能体在提高任务成功率的同时,显著减少了工作上下文的使用。
原文链接:https://arxiv.org/abs/2603.04257
No transcript available for this episode.

Seventy3