https://www.arxiv.org/abs/2510.06727

参考:https://www.longshidata.com/blog/c/c2025103111.html

现有问题

解决方案

End-to-end RL Training of Agent with Summarization (代理与 summarization 的端到端RL训练)

“基于摘要的上下文管理”策略

问题:LLMs在处理多轮交互或复杂任务时,其理解和生成能力会受到自身固定上下文窗口大小的限制。当交互历史累积过多时,LLM可能“忘记”早期信息,导致推理错误,同时处理长文本也会显著增加计算成本。

根本目的:在不修改LLM底层架构的情况下,让它能有效处理比其原生上下文窗口更长的任务。

关键机制:LLM自我学习生成“任务相关”的摘要。

SUPO算法

SUPO(Summarization augmented Policy Optimization,摘要增强策略优化)算法旨在解决LLM在执行长周期、多轮任务时面临的上下文长度限制问题,尤其是在通过RL进行微调时。

核心思想: 让LLM智能体学会自主地、端到端地管理其上下文,通过生成任务相关的历史摘要来突破固定的上下文窗口限制。它将摘要生成本身视为RL策略的一部分进行优化,确保智能体不仅学会如何执行任务,还学会如何高效地记住和遗忘信息。

SUPO是GRPO风格的策略梯度算法。奖励是稀疏的二元奖励(成功为1,失败为0)。

目标:

摘要增强型MDP(修改状态转换)

SUPO将标准MDP扩展为摘要增强型MDP(Summarization-augmented MDP)。

在LLM智能体的标准MDP中,任何步骤的状态通常是所有先前提示、行动和观察的拼接。随着智能体行动,状态单调增长。然而,在摘要增强的MDP中,状态转换被修改:智能体仍然将其行动和观察附加到当前状态,但如果生成的上下文长度超过预定义阈值,则会触发摘要步骤。模型被提示生成摘要,下一个状态变为仅包含初始提示和新摘要的压缩表征。这样,就可以把一个超长轨迹拆分为数个短轨迹。

状态转换由以下规则定义:

  1. 若上下文未超限 ($|(s_t, a_t, o_t)| < L$) 且未收到总结指令 ($v_{sum} \not\subseteq s_t$) 的情况,状态正常增长;
  2. 若对应上下文超限 ($|(s_t, a_t, o_t)| \geq L$) 但未收到总结指令 ($ v_{sum} \not\subseteq s_t $) 的情况,状态将附加总结指令 $v_{sum}$,准备进行总结;
  3. 若已收到总结指令 ($v_{sum} \subseteq s_t$) 的情况,此时 $a_t$ 是生成的摘要,下一个状态将被压缩为初始提示 $s_1$ 和摘要 $a_t$。

于是一个长周期轨迹被分解为多个子轨迹,每个子轨迹以对过去的摘要(或初始提示)开始,以智能体为当前工作片段生成新摘要结束。

传统的多轮工具使用中,LLM在每一轮都会把提示、推理、工具调用和返回结果全部累积进上下文,轮次一多就会迅速撑满上下文窗口,触发长度限制问题。引入摘要机制后,模型在上下文达到阈值时先把已有交互压缩成一段摘要,然后丢弃完整历史,只保留初始提示加摘要继续执行,相当于用“阶段性记忆”来延长可处理的交互过程。

图1:

策略梯度表示

修改后的状态转换使得上下文能够周期性重置,因此需要对应地修改策略梯度表示。论文的定理 3.2 将一个长周期轨迹的策略梯度分解为多个摘要子轨迹梯度的求和。这使得SUPO能够利用现有的RL基础算法(如PPO、GRPO)进行训练,因为每个子轨迹可以被视为一个独立的、短期的MDP推出。

单条子轨迹的策略梯度 = 该子轨迹下执行步骤(优化工具使用)的策略梯度+该子轨迹下总结步骤(优化当前轨迹总结)的策略梯度。

算法设计细节

Experiments Results

环境任务

一个任务平均会使用 6.52 种不同的工具;解决一个任务平均需要执行 44.07 个工具调用(steps)。

评估指标

对比实验:SUPO的有效性

指标

实验结果:证明了SUPO的有效性。

消融实验:过长轨迹的掩码机制

实验设计:SUPO with overlong mask(包含过长轨迹mask机制的标准SUPO)和 SUPO w/o overlong mask(移除了过长轨迹mask机制的SUPO版本)在CodeGym和BrowseComp-Plus实验对比。

实验结果和发现:过长轨迹的掩码机制是必要的。

情况分析:工具调用

在BrowseComp-Plus中对SUPO、GRPO以及不采用超长掩码的SUPO实验。

情况分析:在测试时扩展到处理更多轮摘要

能否将由SUPO训练、具有最大摘要数量S的模型直接扩展到一个最大摘要数量S'>S的智能体?如果智能体学会了一种真正可泛化的摘要策略,那么它应该能够重复应用该策略来解决需要更长历史的更复杂问题。因此,作者还在BrowseComp-Plus上以最多次摘要训练的模型,在测试时以允许增加的摘要轮数进行评估。

实验结果:使用SUPO训练的模型的准确率不仅超过了所有基线,而且随着测试时允许的摘要轮数增加而持续增长。

这表明SUPO所做的不仅仅是管理内存限制;它赋予了智能体一种稳健、可扩展的推理能力。通过学习将其经验提炼成有效的摘要,智能体可以动态扩展其问题解决范围,应对远比其明确训练过的任务更复杂的挑战。