https://www.arxiv.org/abs/2601.12538

推理是推断、问题解决和决策的基础认知过程。尽管LLMs在封闭世界环境中展现出强大的推理能力,但在开放式和动态环境中却面临挑战。智能体推理(Agentic reasoning)标志着一个范式转变,它将LLMs重构为通过持续交互进行规划、行动和学习的自主智能体。 在本综述中,我们沿着三个互补的维度来组织智能体推理。首先,我们通过三个层面来刻画环境动态:基础智能体推理,它在稳定环境中建立核心的单智能体能力,包括规划、工具使用和搜索;自进化智能体推理,它研究智能体如何通过反馈、记忆和适应来完善这些能力;以及集体多智能体推理,它将智能扩展到涉及协调、知识共享和共同目标的协作环境中。在这些层面之上,我们区分了上下文推理(in-context reasoning)和训练后推理(post-training reasoning):上下文推理通过结构化编排扩展了测试时的交互,而训练后推理则通过强化学习和监督微调来优化行为。 我们进一步回顾了涵盖科学、机器人技术、医疗保健、自主研究和数学等领域,在实际应用和基准测试中的代表性智能体推理框架。本综述将智能体推理方法综合成一个连接思维与行动的统一路线图,并概述了开放性挑战和未来方向,包括个性化、长周期交互、世界建模、可扩展的多智能体训练以及实际部署中的治理问题。

基础层

规划

LLMs如何通过规划来分解问题、安排决策并预测复杂环境。

分为情境内规划(In-context Planning)和后训练规划(Post-training Planning)。

情境内规划:在推理时设计和实施规划策略,而无需额外的模型训练。

后训练规划:通过优化方法来提升规划能力。

工具

如何通过调用外部模块来增强其内在能力。

核心挑战在于智能体何时使用工具、选择哪个工具以及如何生成有效的调用。

分为三种主要类型:情境内工具集成、后训练工具集成和基于编排的工具集成。

情境内工具集成:无需训练,重点是设计在推理时的指令、示例和上下文信息,以引导LLM。

后训练工具集成:作用于LLMs或大型检索模型(LRMs),学习如何与外部工具交互,将复杂任务分解为基于工具的推理步骤。

基于编排的工具集成:实际应用中需要多个工具之间的编排来完成复杂任务,通常涉及规划、排序和管理工具间的依赖关系。

搜索

单智能体RAG系统分为三种不同的架构风格:情境内搜索、后训练搜索和结构增强智能体RAG 。

情境内搜索(In-Context Search)

后训练搜索(Post-training Search)

自进化智能体推理

反馈机制

分为三种不同的反馈模式:反思性反馈、参数适应和验证器驱动反馈。

反思性反馈(Reflective Feedback):通过自我批判或验证来修正其推理过程,而无需更新模型的参数。它暴露中间推理输出(如CoT或部分解决方案),并引入额外的评估步骤,直接影响模型如何继续生成。

参数适应(Parametric Adaptation):通过额外的训练将反馈整合到模型的参数,更新模型的权重。如对中间推理轨迹进行SFT或RL。

验证器驱动反馈(Validator-Driven Feedback):利用外部的成功或失败信号来改进模型输出,而无需修改模型的推理过程或参数。用一个验证器(如单元测试、约束检查器或模拟器)评估候选输出,并判断它们是否满足预定义的正确性标准。

记忆

记忆不再仅仅是延长上下文窗口或存储历史输入,而是被视为推理循环的一个不可或缺的组成部分,用于反思过去的经验、指导未来的行动以及动态适应复杂、长期的任务。

分为四种记忆方式:平面记忆的智能体使用、结构化记忆表示和训练后记忆控制。

平面记忆的智能体使用(Agentic Use of Flat Memory)

结构化记忆表示(Structured Memory Representations)

训练后记忆控制(Post-training Memory Control)

进化的基础智能体能力

agent的核心能力(规划、工具使用和搜索)可通过自进化机制得到持续提升。

  1. 自进化工具使用(Self-evolving Tool-use)
    • 强调智能体能够自主创建和合成新工具。这不再仅仅是通过训练,而是通过提示一个冻结的大型语言模型,使其在遇到现有工具集无法解决的问题时,充当程序员的角色。
    • 如LATM框架使用一个强大的模型作为“工具制造者”来创建工具,而一个更轻量级的模型作为“工具使用者”来频繁调用这些工具。CRAFT和CREATOR等框架则生成针对特定领域的定制工具。ToolMaker甚至可以将整个公共代码仓库转化为可用的工具,使智能体能够即时利用人类编写的复杂代码库。
  2. 自进化搜索(Self-evolving Search)
    • 将搜索从静态工具转变为推理循环中不断适应的组成部分。 早期系统中搜索通常是静态的,依赖固定的检索启发式或基于相似性的检索器。而现在研究越来越将搜索和记忆联系在一个共同进化的循环中:智能体在任务执行期间持续更新其记忆库,同时动态调整搜索方式。
    • 进化的记忆库(Evolving Memory Bases):智能体通过反思和执行后更新主动完善其记忆库。例如,Reflexion允许智能体批判自己的推理轨迹并存储提炼出的见解,从而提高未来的搜索相关性。
    • 动态搜索和合成(Dynamic Search and Synthesis):搜索策略本身也可以通过动态优先级和合成来进化。结构化记忆表示(如工作流和知识图)提供语义支架,实现多跳和组合搜索。MemOS和Memory-as-Action等系统更是将搜索决策直接整合到推理策略中,使检索目标、策略和来源能够随智能体经验的积累而共同适应。

多代理协作推理

多智能体系统的角色分类

可分为通用角色和特定领域的角色。

通用角色(Generic Roles)

领域特定角色(Domain-Specific Roles):特定领域的任务通常需要专门的功能。

协作与分工

分为两个维度:上下文协作、训练后协作和智能体路由。

此外,智能体路由可以被视为分工的一种特殊情况,其中路由决策根据任务需求明确地将认知和计算卸载到不同的智能体。

上下文协作(In-context Collaboration):侧重于在推理时指定或诱导的协调策略,无需额外的训练。

训练后协作(Post-training Collaboration):通过学习或搜索过程优化智能体的角色、交互结构或路由策略。

多智能体进化

通过强化学习、自博弈、课程演化和验证器驱动的反馈等方式。

分为:从单智能体演化到多智能体演化、多智能体记忆管理与演化和训练多智能体以演化。

从单智能体演化到多智能体演化

多智能体记忆管理与演化

训练多智能体以演化

未来挑战

用户中心化智能体推理和个性化 (User-centric Agentic Reasoning and Personalization)

长期智能体推理和扩展交互 (Long-horizon Agentic Reasoning from Extended Interaction):目前的模型在长任务中错误会迅速累积,需要更细粒度的信用信号和跨多个情节和任务的泛化学习方法。

世界模型下的智能体推理 (Agentic Reasoning with World Models):世界模型的设计依赖于临时表示,并且通常在短期或特定环境数据上进行训练。

多智能体协作推理与训练 (Multi-agent Collaborative Reasoning and Training):扩展到更大规模的智能体群体会引入拓扑适应、协调开销和安全等挑战。

潜在智能体推理 (Latent Agentic Reasoning):潜在智能体推理探索在内部潜在空间而不是显式的自然语言或符号跟踪中执行规划、决策和协作。虽然潜在推理可以提高效率和可扩展性,但代价是可解释性和可控性降低。

智能体推理的治理 (Governance of Agentic Reasoning)