通过推理模型模拟环境用于智能体训练
论文原始标题:Simulating Environments with Reasoning Models for Agent Training
论文作者:Authors: Yuetai Li, Huseyin A Inan, Xiang Yue, Wei-Ning Chen, Lukas Wutschitz, Janardhan Kulkarni, Radha Poovendran, Robert Sim, Saravan Rajmohan
原始摘要:LLM agents excel in compact environments requiring deep reasoning but remain brittle when operating in broader, more complex contexts that demand robustness across diverse tools and schemas. Building bespoke environments for training is heavy, brittle, and limits progress. In this paper, we demonstrate that LLMs can simulate realistic environment feedback without access to actual testbed data or APIs. Inspired by this capability, we propose two frameworks: Simia-SFT, a pipeline that synthesizes SFT data by amplifying small seed sets into diverse trajectories in an environment-agnostic manner, and Simia-RL, a framework that enables RL training without real environment implementations through LLM-simulated feedback. Fine-tuning open models yields consistent improvements across multiple benchmarks, surpassing GPT-4o and approaching o4-mini on τ2-Bench. Together, Simia-SFT and Simia-RL enable scalable agent training without environment engineering, replacing heavy and brittle implementations with flexible LLM-based simulation.
翻译标题:通过推理模型模拟环境用于智能体训练
翻译摘要:大语言模型(LLM)代理在需要深度推理的紧凑环境中表现出色,但在更广泛、更复杂的环境中表现脆弱,这些环境需要跨多种工具和模式的稳健性。为训练构建定制环境既耗时又脆弱,并限制了进展。在本文中,我们证明LLM可以在不访问实际测试床数据或API的情况下模拟现实环境反馈。受此能力启发,我们提出了两种框架:Simia-SFT,一种通过放大小种子集生成多样化轨迹的管道,实现与环境无关的数据合成;Simia-RL,一种通过LLM模拟反馈实现无真实环境实现的强化学习训练框架。对开放模型进行微调在多个基准测试中取得了持续改进,超越了GPT-4o并在τ²-Bench上接近o4-mini。结合Simia-SFT和Simia-RL,无需环境工程即可实现可扩展的智能体训练,用灵活的LLM模拟替代了沉重且脆弱的实现。

智能问答:
Q1: 这篇论文试图解决什么问题?
论文旨在解决“简单任务/复杂环境”场景下大规模训练数据难以获取、环境工程成本高昂的问题。传统方法需要为每个新环境编写专用接口、API 与奖励函数,导致数据合成与强化学习训练被紧耦合到具体环境,扩展性差。为此,作者提出用 LLM 直接充当环境模拟器,无需真实测试床即可生成连贯的状态转移与工具反馈,并据此构建两条框架:
Simia-SFT:在“无环境”条件下,将少量种子轨迹放大为海量、多样化、结构正确的 agent 轨迹,用于监督微调。
Simia-RL:在“无环境”条件下,用 LLM 同时模拟环境反馈与奖励信号,实现跨任务的强化学习训练,无需为每个任务单独部署环境。
通过上述方案,论文把“环境工程”转化为“摊销的提示+模式设计”,用轻量级、可复用的 LLM 模拟替代沉重脆弱的真实环境实现,从而在 τ²-Bench、OfficeBench、AgentBench 等多套评测上让 8B–32B 开源模型持续超越 GPT-4o 并逼近 o4-mini,验证了“无环境”训练的可扩展性与有效性。
Q2: 有哪些相关研究?
相关研究可归纳为两条主线:工具增强 LLM 与合成智能体数据集。
工具增强 LLM
WebGPT(Nakano et al. 2022)用浏览器环境回答开放域问题。
PAL(Gao et al. 2023)调用 Python 解释器完成数值/符号推理。
LaMDA(Thoppilan et al. 2022)在对话中检索外部知识。
综述见 Qu et al. 2025。
合成智能体数据集
Gorilla(Patil et al. 2023)自举生成指令-API 对。
ToolAlpaca(Tang et al. 2023)多智能体模拟构建工具调用语料。
ToolLLM(Qin et al. 2023)用 ChatGPT 合成 16 000+ RESTful API 调用轨迹。
AgentTuning(Zeng et al. 2023a)以 GPT-4 为智能体在 6 个领域生成轨迹。
API-Bank(Li et al. 2023b)多智能体流水线生成域、API、查询与验证。
APIGen(Liu et al. 2024)多阶段验证保证多样性、正确性。
ToolBridge(Jin et al. 2024)从公开代码库筛选并转换 Python 工具调用。
BUTTON(Chen et al. 2025)用 GPT-4o 自顶向下分解任务并自底向上演化数据。
ToolACE(Liu et al. 2025)迭代演化工具、复杂度引导对话、双重验证。
与上述工作相比,本文不依赖真实环境或固定 API,仅利用 LLM 的“世界模型”能力直接模拟完整多轮轨迹(含推理、工具调用与环境反馈),实现“环境无关”的合成与强化学习训练,可视为对现有合成数据方法的轨迹级、跨域扩展。
Q3: 论文如何解决这个问题?
论文将“环境工程”彻底替换为“LLM 模拟”,通过两项互补的框架一次性解决数据与训练瓶颈:
Simia-SFT:轨迹级合成
仅给定少量种子轨迹,用 LLM-based 预过滤保证种子质量(完整性、逻辑、格式)。
把工具规范、策略规则、输出模式及一条参考轨迹写进提示,引导 LLM 在单次生成中“自演”完整多轮对话:用户提问 → 模型推理 → 工具调用 → 模拟环境返回 → … → 任务完成。
温度采样 + 多轮生成放大种子集,规则后处理修复 JSON、过滤非法调用、统一格式,得到可直接用于监督微调的海量、多样、结构正确的轨迹。
Simia-RL:奖励级模拟
无需部署真实环境,把工具规格、历史对话、参考样本一次性输入 LLM,让它同时扮演“环境”与“评判”:
– 环境模拟器:对 agent 动作返回逼真观测或错误信息;
– 奖励计算器:任务结束时依据策略与目标给出 0/1 奖励。
基于该可微分“伪环境”运行 GRPO 强化学习,迭代优化策略,实现跨任务、跨域的 RL 训练。
通过“提示即环境”的摊销设计,论文把原本繁重的接口实现、状态维护、奖励编程转化为轻量的提示工程,从而在不接触任何真实测试床的前提下,生成百万级轨迹并完成 RL 调优,使 8B–32B 开源模型在 τ²-Bench、OfficeBench、AgentBench 上持续超越 GPT-4o 并逼近 o4-mini,验证了“无环境”方案的可扩展性与有效性。
Q4: 论文做了哪些实验?
实验围绕“无真实环境”这一核心设定展开,覆盖监督微调(SFT)与强化学习(RL)两条训练路径,共三大基准、七类任务、多尺度模型,系统验证模拟轨迹与模拟环境的有效性。
SFT 实验
数据合成
– 种子:APIGen-MT(≈5 k)、AgentTuning(≈668)、OfficeBench 1-app(76)。
– 模拟放大:用 GPT-5 / o4-mini(温度 1.0)生成 90 k、15 k、30 k 轨迹。
模型族
Qwen2.5 / Qwen3 / Llama-3.1/3.2,规模 1.5 B–32 B,全参数微调。
评测基准与指标
– τ²-Bench(Airline & Retail):单轮成功率。
– OfficeBench(2-apps & 3-apps):跨应用工作流成功率。
– AgentBench(OS、WebShop、Mind2Web):工具操纵/网购/网页导航成功率。
主结果
32 B 模型平均 58.9,超 GPT-4o 4.7 分,逼近 o4-mini(63.2)。
8 B 模型平均 49.3,领先同规模 xLAM-2-8B 4.6 分,碾压仅用 5 k 真环境数据的对照 13.6 分。
Pass^k(k=1,2,3)稳健性同样领先。
RL 实验
训练配置
– 算法:GRPO → SFT,步数 64,rollout 16,温度 0.7。
– 模拟器:o4-mini 同时给出环境反馈与 0/1 奖励。
对照
同一任务在真实环境(原生错误信息)与模拟环境(丰富自适应反馈)上分别跑 RL。
结果
OfficeBench 2-apps:64.7 vs 60.8(+3.9),3-apps:34.5 vs 28.6(+5.9)。
τ²-Bench:RL 在模拟环境上再提升 1–2 分。
案例显示模拟环境提供冲突解释(如“与午餐时段重叠”),帮助模型自我修正并获得奖励。
消融与扩展
规模效应
同等 5 k 样本下,模拟轨迹在 τ²-Bench 上优于真环境;当放大到 30 k–90 k,优势进一步扩大。
合成器对比
o4-mini 与 GPT-5 分别生成 15 k 轨迹,二者性能总体相当,o4-mini 在 OfficeBench 略好,GPT-5 在 Retail 领先。
多数据集联合训练
单模型同时用三套模拟数据训练,平均成绩超越 GPT-4,验证跨域通用性。
实验结论:LLM 模拟可在零真实环境条件下,同时支撑大规模 SFT 与 RL,取得与甚至优于真环境训练的效果,且随数据量线性放大,证明“环境即提示”路线的实用性与可扩展性。
Q5: 有什么可以进一步探索的点?
可进一步探索的方向(非穷尽列表):
域外泛化
将模拟管线扩展到医疗、金融、工业控制等具有严格合规或安全约束的领域,验证 LLM 模拟是否仍能保持语义正确性与政策一致性。
研究工具模式(JSON/XML/函数签名)变化时的零样本迁移能力,减少重新手工编写提示的成本。
模拟偏差诊断与修正
量化模拟轨迹与真实环境之间的分布差异(如状态-动作共现、错误类型频率),建立可解释的偏差检测指标。
引入对抗式或迭代式“模拟→真实”微调,逐步把模拟分布拉向真实分布,降低合成数据带来的性能上限。
奖励塑形与稠密奖励
当前 RL 仅使用任务结束时的 0/1 奖励。可探索让 LLM 输出细粒度奖励(如每步成本、风险分数、用户满意度),实现稠密奖励与课程学习。
研究基于 LLM 的动态目标生成,支持多目标、多约束的长期任务。
多智能体与对抗环境
用 LLM 同时模拟多个智能体或对抗角色(如用户、黑客、监管者),构建更具交互性和不确定性的环境,提升策略鲁棒性。
探索博弈论场景下的纳什均衡或协作机制,检验模拟环境能否生成合理的对抗策略。
计算与记忆优化
长上下文滚动窗口导致线性增长的开销。可研究摘要-重构记忆、外部向量存储或分层模拟,降低每轮提示长度。
将环境模拟器蒸馏为 smaller 模型或专用世界模型,减少大模型反复调用的成本。
安全与伦理评估
分析模拟环境是否会放大有害行为(如泄露敏感操作、生成违规内容),建立红队测试与过滤策略。
研究可验证的安全约束注入方法,确保模拟反馈始终符合政策与法规。
人机协同数据迭代
引入人在环路(Human-in-the-loop)对模拟轨迹进行稀疏标注或纠错,形成“模拟→人工验证→再训练”的闭环,持续提升数据质量。
探索主动学习策略,优先让人类检查模拟不确定性最高的轨迹,降低标注量。
理论分析
从分布鲁棒优化或因果推断角度,给出“模拟环境训练→真实环境部署”的性能下界或收敛条件。
研究提示复杂度与模拟精度的权衡关系,为“提示即环境”提供样本复杂度界限。
Q6: 总结一下论文的主要内容
论文核心内容速览
问题
大模型在“简单任务/复杂环境”中表现脆弱,主因是训练数据稀缺且真实环境工程昂贵、不可迁移。
解法
用 LLM 直接充当“环境模拟器”,提出两大框架:
Simia-SFT:零环境执行,把少量种子轨迹放大为海量、多样、结构正确的合成轨迹,用于监督微调。
Simia-RL:零环境部署,让同一 LLM 同时输出环境反馈与 0/1 奖励,实现跨任务强化学习。
技术要点
提示内嵌工具规范、策略、格式与参考轨迹,单次生成完整多轮对话。
规则后处理修复 JSON、过滤非法调用、统一格式,保证训练就绪。
RL 阶段采用 GRPO,用模拟信号迭代优化策略。
实验
三大基准(τ²-Bench、OfficeBench、AgentBench)、七类任务、1.5 B–32 B 模型。
32 B 模型平均 58.9,超 GPT-4o 4.7 分;8 B 模型平均 49.3,领先同规模基线 4.6 分。
RL 在模拟环境上再提升 3–7 分,且优于真实环境 RL。
结论
“提示即环境”可替代沉重代码实现,实现可扩展、可迁移、低成本的智能体训练。
阅读全文 →
来源:Arxiv2025-11-03 18:29:57 UTC