实验(推理阶段)

虚拟环境

WebShop介绍(摘自WebShop论文)

实验结果

图表说明

图3:不同方法在WebShop任务(Yao et al. (2022))上的成功率。所有模型都基于xLAM-v0.1-r Zhang et al. (2024c)。在xLAM-v0.1-r上进行RFT和DPO训练,性能分别从28.6%提升到31.3%和37.5%。然而,这些方法仍然落后于平均人类表现的50.0%。我们的方法,Agent Q + MCTS,在基线模型上实现了显著的增益(相对提升76.57%),在WebShop上以50.5%的成功率超越了平均水平的人类表现。

【AI生成】图3解释

这张图是衡量Agent Q框架性能的核心图表之一。它清晰地展示了在模拟环境(WebShop) 中,不同方法的性能对比,突出了Agent Q+MCTS组合的巨大优势。

整体解读

这是一个条形图,横轴是不同的方法或模型,纵轴是它们在WebShop基准测试上的成功率为百分比。这个成功率达到50% 是一个关键的参考点,因为它代表了“平均人类”的表现水平。

各条形柱详解

  1. xLAM-v0.1-r (深紫色)
    • 含义:这是所有其他方法的基线模型。它是经过监督微调(SFT)的LLM,但没有经过额外的强化学习或搜索优化。
    • 成绩28.6%。这表明即使是强大的预训练模型,在没有进一步优化的情况下,其零样本能力也有限。
  1. RFT (深紫色)
    • 含义:Reinforced Fine-Tuning(强化微调)。这是一种基于结果监督(outcome-based supervision)的方法,它使用成功轨迹来训练模型。
    • 成绩31.3%。相比基线模型有小幅提升(+2.7%),但效果有限。
  1. GPT-4 (深蓝色)
    • 含义:作为另一个强大的基线模型进行比较。
    • 成绩37.5%。虽然比xLAM-v0.1-r强,但仍然远低于人类水平。
  1. DPO (深蓝色)
    • 含义:Direct Preference Optimization(直接偏好优化)。这是一种更先进的RLHF方法,利用成功和失败的轨迹来构建偏好对,从而训练模型。
    • 成绩40.6%。比RFT和GPT-4都好,证明了DPO的有效性,但仍落后于人类。
  1. DPO+BeamSearch (青色)
    • 含义:在DPO训练的基础上,结合了束搜索(Beam Search)这种推理时的规划技术。
    • 成绩41.5%。与纯DPO相比,提升非常小,说明简单的规划技术在这个任务上效果有限。
  1. AgentQ (绿色)
    • 含义:这是指经过Agent Q框架(即MCTS+AI过程监督+DPO)训练后的模型,但在评估时没有启用MCTS搜索(即零样本模式)。
    • 成绩48.4%。这个成绩非常关键,它表明仅仅通过训练(DPO),模型的能力就得到了巨大提升,已经接近人类平均水平。
  1. xLAM + MCTS (浅绿色)
    • 含义:将未训练的基线模型(xLAM-v0.1-r)与推理时的MCTS搜索相结合。
    • 成绩50.0%。这个结果非常重要,它证明了MCTS搜索本身就能带来巨大的性能提升,使一个未经强化训练的模型达到人类平均水平。
  1. Human (average) (浅绿色)
    • 含义:平均人类的表现。
    • 成绩50.0%。作为基准线。
  1. AgentQ + MCTS (亮黄色)
    • 含义:这是最终的、最强的组合。它将经过训练的Agent Q模型推理时的MCTS搜索结合起来。
    • 成绩50.5%。这是所有方法中最高的,超过了平均人类的表现
  1. Human (expert) (亮黄色)
    • 含义:专家人类的表现。
    • 成绩59.6%。这是人类能达到的最高水平,为未来的研究设定了一个更高的目标。

核心结论

  • 训练很重要AgentQ(48.4%) vs xLAM-v0.1-r(28.6%)的对比,证明了通过MCTS生成数据并用DPO训练模型,能极大地提升模型的内在能力。
  • 搜索很重要xLAM + MCTS(50.0%) vs xLAM-v0.1-r(28.6%)的对比,证明了在推理时使用MCTS搜索能有效弥补模型推理能力的不足。
  • 两者结合是关键AgentQ + MCTS(50.5%)的成绩,是训练(提升模型能力)和搜索(在执行时进行规划)协同作用的结果。它不仅超越了基线模型,还超越了平均人类表现,展现了该框架的强大潜力。

总而言之,图3有力地证明了Agent Q框架在模拟环境中的有效性,特别是当将训练和推理时的搜索能力结合起来时,能够产生超越人类平均水平的性能。

真实世界

OpenTable介绍

实验结果

图表说明

图5:在轨迹结束时,会调用一个GPT-4-V评估器,根据最终观察和动作历史来提供关于智能体表现的反馈,以确定成功得分。该模型被提示以浓缩的执行历史和最终状态的截图作为输入。成功指标是一个二元的0/1值。

【AI生成】图5解释

这张图是理解Agent Q框架如何进行最终任务评估(Final Task Evaluation)的关键。它展示了在训练阶段(Training Phase),特别是当使用MCTS探索生成数据时,如何为一个完整的交互序列(trajectory)打上“成功”或“失败”的标签。

整体流程概览

整个过程是:

  1. 执行轨迹:智能体从用户查询开始,经过一系列思考、规划和行动,最终到达一个网页状态。
  2. 调用评估器:在轨迹的终点,系统会自动调用一个外部的、强大的语言模型(GPT-4-V)来评判这个轨迹的最终结果。
  3. 获取反馈:GPT-4-V根据提供的信息,给出一个二元的成功分数(0或1)和一段文字说明。

详细分解

  1. 左侧:最终观察 (FINAL OBSERVATION)
    • 这是智能体执行完所有操作后,浏览器显示的最终页面截图。
    • 在图中,我们可以看到:
      • 智能体成功预订了餐厅 Fogo de Chao
      • 预订的日期是 8月28日(Wed, Aug 28, 2024),但用户请求的是 8月29日
      • 预订的时间是 晚上7点,这与用户请求一致。
    • 这个观察是真实的、视觉化的,它包含了所有最终的、可验证的信息。
  1. 中间:LLM Critic (批评模型)
    • 这里的“LLM Critic”实际上指的是GPT-4-V,它是论文中用于评估任务完成情况的工具。
    • 它接收两个关键输入:
      • 最终观察:即上面的截图。
      • 浓缩的执行历史:虽然图中没有直接展示,但论文描述了这一点。这个历史记录了智能体在整个任务中采取的所有关键步骤(如点击了哪个按钮、输入了什么内容等),以便评估器了解整个过程。
  1. 右侧:评估结果 (Score & Feedback)
    • Score: 0.0:这是最关键的输出。它是一个二元(binary) 的成功指标。0.0 表示失败1.0 表示成功
    • 反馈文本:“The agent booked a reservation for the correct restaurant, but incorrect date and time.” (智能体为正确的餐厅预订了座位,但日期和时间不正确。)
    • 核心逻辑:尽管智能体完成了大部分工作(找到了正确的餐厅并提交了预订),但由于日期错误,任务被视为失败。这体现了评估标准的严格性——必须满足所有预设条件才算成功。

为什么需要GPT-4-V?

  • 解决真实环境的挑战:在OpenTable这样的真实网站上,无法通过程序化的方式(programatically)读取后台数据库来验证预订是否真正成功。例如,系统无法直接知道预订的日期是否正确。
  • 视觉理解能力:GPT-4-V作为一个多模态大模型,具备强大的视觉理解能力。它能够“看懂”截图中的所有元素(如文本、按钮、图标),并准确地提取出关键信息(如餐厅名称、日期、时间)。
  • 综合判断:它不仅能识别信息,还能将这些信息与用户查询进行对比,并做出最终的判断。这比简单的文本匹配要复杂得多。

总结

图5的核心意义在于,它展示了Agent Q框架如何利用一个强大的外部模型(GPT-4-V)作为“裁判” 来解决真实世界任务评估的难题。这种基于视觉的、综合性的评估方式,确保了训练数据的质量,使得DPO算法能够学习到真正有用的策略,而不仅仅是学会如何在模拟环境中“作弊”。

图6:不同方法在OpenTable上的成功率。除非另有说明,所有模型均基于LLaMA-3-70B-Instruct Touvron et al. (2023)。使用DPO和RFT结合MCTS,性能分别从18.6%提升到71.8%和84.3%。我们证明了Agent Q本身实现了81.7%的成功率,而Agent Q + MCTS显著优于所有其他技术,在OpenTable上达到了95.4%的性能。

【AI生成】图6解释

这张图是论文最核心、最令人印象深刻的实验结果之一。它展示了Agent Q框架在真实世界网站(OpenTable) 上的巨大威力,特别是当将训练后的模型与推理时的MCTS搜索相结合时,其性能达到了惊人的高度。

整体解读

这是一个条形图,横轴是不同的方法或模型,纵轴是它们在OpenTable任务上的成功率为百分比。这个图表清晰地呈现了一个“阶梯式”的性能提升过程。

各条形柱详解

  1. xLAM-v0.1-r (深紫色)
    • 含义:这是基线模型,一个经过监督微调的LLM。
    • 成绩0.0%。这表明该模型在没有进一步优化的情况下,完全无法完成预订任务。
  1. LLaMA-3-70B-Instruct Base (深紫色)
    • 含义:这是另一个更强的基线模型,即LLaMA-3 70B Instruct模型,但未经过任何特定训练。
    • 成绩18.6%。这代表了该强大模型的零样本(zero-shot)能力。虽然比第一个基线好得多,但仍然远低于人类水平。
  1. GPT-4o (深蓝色)
    • 含义:作为另一个强大的基线模型进行比较。
    • 成绩62.6%。这显示了即使是顶级的商业模型,在这种复杂的、多步骤的真实世界任务上,其零样本表现也有限。
  1. LLaMA-3-70B-Instruct RFT (深蓝色)
    • 含义:在LLaMA-3 70B Instruct模型上应用了强化微调(Reinforced Fine-Tuning, RFT)。
    • 成绩67.2%。相比基线模型有显著提升,证明了RFT的有效性。
  1. DPO (青色)
    • 含义:在LLaMA-3 70B Instruct模型上应用了直接偏好优化(Direct Preference Optimization, DPO)。
    • 成绩71.8%。比RFT稍好,但效果提升有限。
  1. AgentQ (No AI Feedback) (青色)
    • 含义:这是Agent Q框架的一个变体,它使用了MCTS+DPO,但去除了AI过程监督(即批评模型)。
    • 成绩75.2%。这个结果非常重要,它证明了即使没有AI反馈,仅通过MCTS探索生成数据并用DPO训练,也能带来显著的性能提升。
  1. AgentQ (绿色)
    • 含义:这是完整的Agent Q框架,包含了MCTS探索、AI过程监督和DPO训练
    • 成绩81.7%。这是零样本(zero-shot)性能,即模型在不使用MCTS搜索的情况下,仅凭自身学习到的能力执行任务。这个成绩已经是一个巨大的飞跃,是基线模型的4倍多。
  1. RFT + MCTS (浅绿色)
    • 含义:将RFT训练的模型与推理时的MCTS搜索相结合。
    • 成绩84.3%。这证明了MCTS搜索本身就能极大地提升模型的决策质量,使一个未经充分训练的模型达到很高的性能。
  1. AgentQ + MCTS (亮黄色)
    • 含义:这是最终的、最强的组合。它将经过完整训练的Agent Q模型推理时的MCTS搜索结合起来。
    • 成绩95.4%。这是所有方法中最高的,标志着Agent Q框架的巅峰性能。这个成绩不仅远超所有基线模型,甚至可能接近或超过了人类专家的水平(文中提到专家人类为59.6%,但这里指的可能是平均人类)。

核心结论

  • 训练至关重要:从 Base (18.6%) 到 AgentQ (81.7%) 的巨大差距,证明了通过MCTS+DPO+AI反馈进行训练,能将一个强大的基础模型的潜力发挥到极致。
  • 搜索是关键:从 AgentQ (81.7%) 到 AgentQ + MCTS (95.4%) 的提升,证明了在推理时启用MCTS搜索,能让模型进行更高级的规划和探索,从而获得“超人”般的性能。
  • 两者结合是王道AgentQ + MCTS 是一个完美的组合,它结合了强大的内在能力(训练)和卓越的外部工具(搜索),共同创造了前所未有的高成功率。

总而言之,图6有力地证明了Agent Q框架在解决复杂、真实的Web代理任务方面的巨大潜力,尤其是在将训练和推理时的搜索能力相结合时,能够实现质的飞跃。