深度元素智能
TPS-Bench: 评估 AI 代理在复合任务中的工具规划与调度能力
来源: | 作者:DE.Tech | 发布时间: 2025-11-04 | 102 次浏览 | 🔊 点击朗读正文 ❚❚ | 分享到:
这篇论文试图解决什么问题?论文核心关注的问题是:
现有大语言模型(LLM)智能体在“复合任务”中能否同时做好工具规划(Tool Planning)与调度(Scheduling)?具体而言,作者指出:真实场景往往要求智能体把多个异构工具组合起来,完成“一个请求里套多个子任务”的复合问题(例如:查天气→查航班→根据天气推荐衣物→搜景点)。仅完成单步工具调用已不足以衡量智能体能力;必须考察其能否从庞大且异构的工具库中选出必要工具(规划),识别子任务间的依赖与可并行性,安排执行顺序(调度),在保证成功率的同时控制耗时与 token 开销(效率)。为此,作者构建并开源了 TPS-Bench 基准,用 200 个复合任务、数百个 MCP 工具,系统评估主流 LLM 在上述三方面的表现,并初步验证用强化学习(GRPO)微调小模型可在仅 100 条样本下提升完成率 6%、降低耗时 14%。

🌟 今日前沿论文 · 2025年11月3日

精选科技前沿资讯,洞察科技研究趋势

🔥🔥🔥🔥🔥AI代理

TPS-Bench: 评估 AI 代理在复合任务中的工具规划与调度能力

#AI代理#工具规划#调度优化#复合任务#强化学习

论文原始标题:TPS-Bench: Evaluating AI Agents' Tool Planning & Scheduling Abilities in Compounding Tasks

论文作者:Authors: Hanwen Xu, Xuyao Huang, Yuzhe Liu, Kai Yu, Zhijie Deng

原始摘要:Large language model (LLM) agents have exhibited strong problem-solving competence across domains like research and coding. Yet, it remains underexplored whether LLM agents can tackle compounding real-world problems that require a diverse set of tools to complete. Given a broad, heterogeneous tool repository, LLM agents must not only select appropriate tools based on task planning analysis but also strategically schedule the execution order to ensure efficiency. This paper introduces TPS-Bench to benchmark the ability of LLM agents in solving such problems that demand Tool Planning and Scheduling. TPS-Bench collects 200 compounding tasks of two difficulty levels, based on a tool repository containing hundreds of model context protocol (MCP) tools. In particular, each task is composed of multiple subtasks, such as web search, map navigation, calendar checking, etc., and each subtask can be completed by a basic tool. Our evaluation emphasizes both task completion rate and efficiency. The empirical studies on popular closed-source and open-source LLMs indicate that most models can perform reasonable tool planning, but differ in scheduling. For example, GLM-4.5 achieves an outperforming task completion rate of 64.72% with extensive sequential tool calls, hence suffering from significantly long execution time. By contrast, GPT-4o prioritizes parallel tool calls but achieves only a 45.08% completion rate. Considering reinforcement learning (RL) can be a viable way to improve the scheduling efficiency without compromising performance, we perform an initial study on Qwen3-1.7B and witness a 14% reduction in execution time alongside a 6% gain in task completion rate based on rarely 100 RL training samples. Our code is available https://github.com/hanwenxu1/mcp-agent.

翻译标题:TPS-Bench: 评估 AI 代理在复合任务中的工具规划与调度能力

翻译摘要:大型语言模型(LLM)代理在研究和编程等领域展现了强大的问题解决能力。然而,仍缺乏对 LLM 代理是否能够处理需要多种工具完成的复合现实问题的研究。给定一个广泛且异构的工具库,LLM 代理不仅要基于任务规划分析选择合适的工具,还要战略性地安排执行顺序以确保效率。本文介绍了 TPS-Bench 基准,用于评估 LLM 代理在解决需要工具规划和调度的问题中的能力。TPS-Bench 收集了 200 个不同难度级别的复合任务,基于包含数百个模型上下文协议(MCP)工具的工具库。特别地,每个任务由多个子任务组成,如网络搜索、地图导航、日历检查等,每个子任务都可以通过基本工具完成。我们的评估强调了任务完成率和效率。对主流封闭源和开源 LLM 的实证研究显示,大多数模型可以进行合理的工具规划,但在调度方面存在差异。例如,GLM-4.5 通过广泛的顺序工具调用实现了 64.72% 的任务完成率,但执行时间显著增加。相比之下,GPT-4o 优先并行工具调用,但仅实现了 45.08% 的完成率。考虑到强化学习(RL)可以作为在不损害性能的情况下提高调度效率的可行方法,我们在 Qwen3-1.7B 上进行了初步研究,基于 100 个 RL 训练样本,执行时间减少了 14%,任务完成率提高了 6%。我们的代码可在 https://github.com/hanwenxu1/mcp-agent 上获取。



智能问答:

Q1: 这篇论文试图解决什么问题?

论文核心关注的问题是:
现有大语言模型(LLM)智能体在“复合任务”中能否同时做好工具规划(Tool Planning)与调度(Scheduling)?

具体而言,作者指出:

真实场景往往要求智能体把多个异构工具组合起来,完成“一个请求里套多个子任务”的复合问题(例如:查天气→查航班→根据天气推荐衣物→搜景点)。

仅完成单步工具调用已不足以衡量智能体能力;必须考察其能否
从庞大且异构的工具库中选出必要工具(规划),
识别子任务间的依赖与可并行性,安排执行顺序(调度),
在保证成功率的同时控制耗时与 token 开销(效率)。

为此,作者构建并开源了 TPS-Bench 基准,用 200 个复合任务、数百个 MCP 工具,系统评估主流 LLM 在上述三方面的表现,并初步验证用强化学习(GRPO)微调小模型可在仅 100 条样本下提升完成率 6%、降低耗时 14%。

Q2: 有哪些相关研究?

论文将相关研究归入四条主线,并指出各自与 TPS-Bench 的差异:

LLM-agent 评测基准

AgentBench、SmartPlay、AgentBoard、τ²-Bench 等侧重“通用决策”或“多轮交互”,但任务目标孤立、流程简单,未考察工具组合与并行调度。

SWE-Bench、AssistantBench、CToolEval 等聚焦单域(编程、Web 问答、中文 API),工具集固定且规模小,缺乏“复合任务+异构工具库”场景。

效率导向的 Agent 研究

Efficient Agents 仅针对“单任务/少工具”做开销优化,未涉及多工具依赖与并行化。

自适应推理、延迟感知解码等工作侧重生成阶段,而非“工具调用序列”层面的调度。

Benchmark 构建与任务设计

BIG-bench、SmartPlay、AgentBoard 等任务多为“单目标”或“纯顺序”,缺少显式子任务依赖与可并行维度;TPS-Bench 首次引入“难度分级+依赖图+并行化潜力”。

MCP(Model Context Protocol)工具生态

近期研究把 MCP 作为 LLM 与外部系统的统一接口,但主要关注协议安全性与标准化;TPS-Bench 率先将 15 个 MCP Server、141 个异构工具纳入评测,构建接近真实的大规模工具库。

Q3: 论文如何解决这个问题?

论文从“构建基准 → 系统评估 → 验证改进路径”三步展开,具体做法如下:

构建 TPS-Bench 基准

工具层:收集 15 个 MCP Server、141 个跨域工具(地图、搜索、航班、日历、图表等)。

任务层:用 LLM 根据工具描述生成可解子任务,再人工校验组合成 200 个复合任务,分 Easy(≤5 子任务、弱依赖)与 Hard(≤50 子任务、强依赖)两级。

评估协议:
– 任务完成率:Gemini-2.5-Flash 作 LLM-as-a-judge,自动分解子任务并打分。
– 效率指标:记录输入/输出 token、端到端耗时、工具调用轮数;引入 cost-of-pass 统一衡量“成功率/费用”权衡。

系统评估 7 个主流模型

发现“规划”差距不大(工具选择得分 65–94%),但“调度”差异显著:

– GLM-4.5 采用纯串行,完成率最高(64.72%),却需 35 轮、217 s、12.6 k token。

– GPT-4o 倾向并行,耗时降至 76 s,完成率仅 45.08%。

验证“工具选择策略”与“串/并行调度”对 token/时间/成功率的影响,量化效率-效果权衡。

验证强化学习改进调度

仅用 100 条 Hard 任务样本,以 GRPO 对 Qwen3-1.7B 做 5 epoch 微调;奖励同时考虑完成度与并行度。

结果:在 TPS-Bench-Hard 上完成率↑6%,执行时间↓14%,输出 token 减半,工具轮数减少,证明小样本 RL 即可显著优化调度效率而不损性能。

Q4: 论文做了哪些实验?

论文共设计 4 组实验,覆盖“主评测—消融—代价—RL 改进”四个维度:

主实验:7 大模型在 TPS-Bench 上的端到端表现

模型:GPT-4o、Kimi-K2、DeepSeek-R1、GLM-4.5、QwQ-32B、Qwen3-32B、Qwen3-1.7B

指标:工具选择得分、任务完成率、输入/输出 token、调用轮数、 wall-clock 时间、cost-of-pass

结果:GLM-4.5 完成率最高但最慢;GPT-4o 最快但完成率最低;Qwen3-32B 在开源系中效率-效果平衡最佳。

工具选择策略消融

三种策略对比:

– No-selection(直接塞全部 141 工具 schema)

– Rule-based(基于关键词相似度取 Top-10)

– Self-selection(模型自主选 ≤10 工具)

观察:完成率相近,但 No-selection 输入 token >50 k,时间翻倍;小模型上下文溢出比例从 32 % 降至 12 %。

调度策略消融

强制串行 vs 默认并行

观察:串行平均 token+时间增加,但 GLM-4.5 完成率从 63.1 % → 71.8 %;并行节省资源却易因依赖误判导致级联错误。

强化学习微调验证

训练集:TPS-100(Hard 任务 100 例)

算法:GRPO,5 epoch,actor lr=1e-6,每样本 5 roll-outs

奖励:Gemini-2.5 给出的“完成度+并行度”混合分数

结果:Qwen3-1.7B 在 Hard 集完成率 26.75 % → 33.13 %,时间 42 s → 36 s,输出 token 2.2 k → 1.0 k,工具轮数 2.4 → 2.1,验证小样本 RL 即可同步提升效率与成功率。

Q5: 有什么可以进一步探索的点?

可进一步探索的方向(按研究阶段归类)

1. 任务与工具维度

动态工具库:引入工具版本升级、API 变更或临时失效,考察智能体在线重规划能力。

长周期任务:当前单轮对话即结束,可扩展到“持续数小时/数天”的监控-提醒-再执行场景。

多智能体协作:将复合任务拆给不同角色(天气专家、航班专家、文案专家),研究分布式工具调度协议。

2. 评估体系

可解释性指标:记录并量化“依赖图预测准确率、并行度利用率、关键路径长度”等细粒度信号。

人机一致性再验证:除 LLM-as-a-judge 外,引入众包人工标注依赖图与完成度,降低自动评测偏差。

能耗-碳排指标:在 token 与耗时之外,直接测量 GPU 功耗,建立绿色调度排行榜。

3. 模型与算法

更大规模 RL 训练:将 TPS-100 扩至万级,验证策略模型(GRPO/PPO/DPO)与价值模型(VF/QR)的 scaling 曲线。

在线 RL / bandit 调度:让智能体在真实 MCP 环境中试错,使用 bandit 或 Monte-Carlo 树搜索实时决定串并行。

神经-符号混合:先用符号规划器(PDDL/ASP)生成最优依赖图,再用 LLM 做工具参数填充与异常处理。

多目标优化:将完成率、时间、token、cost 同时作为 Pareto 目标,用演化算法或强化学习寻找前沿。

4. 系统与工程

异步工具回调:支持“调用即返回、结果推送”的异步 MCP 接口,研究非阻塞调度策略。

缓存与复用:对相同工具调用结果进行语义级缓存,减少冗余调用,提高端到端吞吐。

边缘-云协同:部分工具在本地边缘设备(地图、日历),部分在云端(heavy DB),研究 latency-aware 的混合部署。

5. 安全与鲁棒

工具链攻击面:恶意工具返回假数据导致下游级联错误,建立对抗性 TPS 任务评测鲁棒性。

隐私预算:引入差分隐私或联邦约束,考察在“数据不出域”情况下的跨工具调度可行性。

Q6: 总结一下论文的主要内容

主要内容可概括为“一个基准、两组实验、三项指标、四项结论”:

一个基准

TPS-Bench:200 个复合任务、141 个 MCP 工具,分 Easy/Hard 两级,强调“先规划-后调度-可并行”。

两组实验

主评测:7 款主流 LLM 在基准上的成功率与效率对比。

消融与改进:工具选择策略、串并行调度、GRPO 强化学习微调。

三项指标

任务完成率、工具选择得分、端到端开销(token / 时间 / 费用)。

四项结论

现有模型“会选工具但调度差异大”:GLM-4.5 串行高成功率低效率,GPT-4o 并行高效率低成功率。

工具选择显著影响 token 与上下文溢出,但对完成率影响有限。

串行调度可减少依赖误判,提高成功率,却增加耗时与 token。

仅 100 样本的 GRPO 微调即可让 1.7 B 小模型完成率↑6%、耗时↓14%,验证 RL 改善调度可行。

阅读全文 →

来源:Arxiv2025-11-03 12:45:39 UTC


返回
友情链接