动态环境中实时推理智能体
论文原始标题:Real-Time Reasoning Agents in Evolving Environments
论文作者:Authors: Yule Wen, Yixin Ye, Yanzhe Zhang, Diyi Yang, Hao Zhu
原始摘要:Agents in the real world must make not only logical but also timely judgments. This requires continuous awareness of the dynamic environment: hazards emerge, opportunities arise, and other agents act, while the agent's reasoning is still unfolding. Despite advances in language model reasoning, existing approaches fail to account for this dynamic nature. We introduce real-time reasoning as a new problem formulation for agents in evolving environments and build Real-Time Reasoning Gym to demonstrate it. We study two paradigms for deploying language models in agents: (1) reactive agents, which employ language models with bounded reasoning computation for rapid responses, and (2) planning agents, which allow extended reasoning computation for complex problems. Our experiments show that even state-of-the-art models struggle with making logical and timely judgments in either paradigm. To address this limitation, we propose AgileThinker, which simultaneously engages both reasoning paradigms. AgileThinker consistently outperforms agents engaging only one reasoning paradigm as the task difficulty and time pressure rise, effectively balancing reasoning depth and response latency. Our work establishes real-time reasoning as a critical testbed for developing practical agents and provides a foundation for research in temporally constrained AI systems, highlighting a path toward real-time capable agents.
翻译标题:动态环境中实时推理智能体
翻译摘要:现实世界中的智能体不仅需要做出逻辑判断,还需要及时判断。这要求持续关注动态环境:危险出现、机会出现、其他智能体行动,而智能体的推理仍在进行中。尽管语言模型推理取得了进展,但现有方法未能考虑这种动态特性。我们引入了“实时推理”作为动态环境中智能体的新问题形式,并构建了 Real-Time Reasoning Gym 来展示它。我们研究了在智能体中部署语言模型的两种范式:(1) 反应式智能体,使用有限推理计算的语言模型进行快速响应;(2) 规划智能体,允许扩展推理计算以处理复杂问题。我们的实验表明,即使是最先进的模型在任何一种范式下都难以做出逻辑和及时的判断。为了解决这一限制,我们提出了 AgileThinker,它同时参与两种推理范式。随着任务难度和时间压力的增加,AgileThinker 始终优于仅参与一种推理范式的智能体,有效平衡了推理深度和响应延迟。我们的工作将实时推理确立为开发实用智能体的关键测试平台,并为时序约束 AI 系统的研究提供了基础,指明了通往实时能力智能体的路径。

智能问答:
Q1: 这篇论文试图解决什么问题?
论文旨在解决“实时推理(real-time reasoning)”这一核心问题:
在环境持续演变的真实场景中,智能体必须在逻辑正确性与响应时效性之间取得平衡。现有大模型智能体通常假设“环境等 Agent 推理完再变化”,忽略了世界动态性与计算并行性,导致在时延敏感任务中表现骤降甚至引发安全风险。为此,作者:
提出实时推理问题新范式——环境按固定节奏更新,不因 Agent 计算而暂停;
构建首个评测平台 Real-Time Reasoning Gym,通过 Freeway、Snake、Overcooked 三款游戏独立操控“认知负荷”与“时间压力”两个维度,系统评估 Agent 的时效-逻辑权衡能力;
验证现有“纯反应”与“纯规划”单范式均无法在高压高负载场景下同时保证及时性与深度;
设计双线程架构 AgileThinker,让规划线程持续深入推理并流式输出部分结论,反应线程在时限内引用最新观测与部分规划结果快速决策,实现反应-规划并行协同;
通过大量实验(含真实 wall-clock 时间)证明 AgileThinker 在认知负荷与时间压力升高时,显著优于单一范式基线,为构建可部署的实时语言智能体提供方法论与评测基准。
Q2: 有哪些相关研究?
相关研究可归纳为三条主线:静态评测环境、预算控制与双系统架构。
静态评测环境
OpenAI Gym、WebArena、SWE-Agent 等主流平台默认“环境等 Agent 完”的回合制设定,忽略动态延迟。
Delay-Aware MDP、sticky-action、异步交互式 MDP 等仅用于传统 RL,未面向 LLM Agent。
预算控制 / 测试时计算
早期截断、提示压缩、RL 式预算感知训练(s1、L1、Gemini-2.5)可在一定程度上缩短输出,但仍难在“极紧预算”与“充分推理”间平滑切换,无法同时满足实时反应与深度规划。
双系统(System 1/2)Agent
Talker-Reasoner、Hierarchical Language Agent、Dual-Process VLA 等把“快模型”与“慢模型”串行或独立并行,但快端无法在中途读取慢端的部分推理轨迹,因而难以在毫秒级时限内吸收深度洞察。
本文首次将“实时推理”形式化为 LLM Agent 的新问题,提出硬件无关的“token-as-time”评测协议,并给出可流式引用部分思考的双线程架构,与上述研究形成互补。
Q3: 论文如何解决这个问题?
论文将“实时推理”形式化为环境持续演进、Agent 必须在时限内输出动作的决策问题,并从环境-算法-评测三个层面给出系统解决方案。
构建可复现的动态评测平台
Real-Time Reasoning Gym 用 token 数作为硬件无关的“时间通货”,每 NTE 个 token 强制环境前进一步,超时未输出动作则执行默认动作。
三款游戏分别对应** hazards、opportunities、partners** 三种动态因素,并独立调节“认知负荷”与“时间压力”两维难度,实现可控、可重复的梯度评测。
提出双线程并行架构 AgileThinker
规划线程 P:运行“思考模型”,持续生成多步计划或代码策略,推理过程以流式
反应线程 R:运行“非思考模型”或截断思考模型,在每步最后 TR token 时限内,根据最新观测+P 的局部推理痕迹快速决策。
两线程按“时间片”共享同一 LLM 推理预算,R 只读 P 的增量输出,无需等待 P 完成,实现“深度”与“时效”解耦。
系统实验验证
在梯度变化的认知负荷与时间压力下,纯反应或纯规划范式均出现性能悬崖;AgileThinker 在同等预算下显著延缓性能衰减。
Wall-clock 实验(DeepSeek 官方 API)表明 token-时间线性相关 R²=0.999,AgileThinker 的真实延迟优势与 token 模拟一致,证明方案可落地。
通过“动态环境+双线程协同+token-时间抽象”,论文首次让大模型智能体在逻辑正确性与响应及时性之间实现可量化、可扩展的平衡。
Q4: 论文做了哪些实验?
实验围绕 RQ1 环境因素影响、RQ2 资源分配、RQ3 仿真-真实时间一致性 展开,共 4 组核心测试与 3 组补充验证。
单因子应力测试(RQ1)
固定时间压力 8 k tokens/step,逐级提升认知负荷(Easy→Medium→Hard),对比 5 类 Agent:
– Reactive(V3)、Reactive(R1+budget)、Planning(R1)、Planning(R1+code)、AgileThinker。
固定认知负荷 Medium,逐级提升时间压力 4 k→32 k tokens/step。
结果:纯反应或纯规划在单一应力升高时均出现性能悬崖;AgileThinker 下降斜率显著更缓(p<0.05)。
反应预算细粒度消融(RQ2)
在 8 k tokens/step 环境下,单独扫描 AgileThinker 的 NTR(0.5 k–8 k)。
记录 R 线程自然长度 CDF,发现性能峰值与 CDF 90% 分位对齐,验证“给足但不过量”原则。
真实 wall-clock 验证(RQ3)
用 DeepSeek 官方 API 跑 Freeway/Snake/Overcooked,环境步长 6 min(≈8 k tokens)。
测得线性模型 T=0.0473N+334.55(R²=0.999),AgileThinker 相对 Reactive/Planning 平均提升 0.40–0.89 绝对分数,确认 token-时间抽象有效。
统计显著性与泛化
配对 t-test:AgileThinker 优势随负荷/压力升高而显著(p<0.05 区域扩大)。
跨模型测试:DeepSeek-V3.2、Gemini-2.5-Flash 上复现相同趋势;即便 Gemini 无法流式读取中间思考,仅让 Reactive 引用 Planning 最终输出也能持续优于单范式。
补充实验
Code-as-Policy 定性分析:LLM 在 Freeway 可写 BFS,在 Snake/Overcooked 则因搜索空间或协作复杂度失效。
并发资源限制:把并行双线程改为交替单线程(吞吐量相同),AgileThinker 仍显著领先,证明优势主要来自认知分工而非算力叠加。
以上实验从仿真到真实时间、从单因子到系统联合,验证了 AgileThinker 在高认知负荷+高时间压力场景下的持续优势。
Q5: 有什么可以进一步探索的点?
更复杂的真实场景
将 Real-Time Reasoning Gym 扩展到部分可观、噪声传感、连续控制或多人博弈环境,检验 AgileThinker 在更高维度观测/动作空间下的可扩展性。
引入异构时间尺度(传感器快、执行器慢、通信延迟可变),测试双线程架构对多节奏动态的适应性。
线程协同机制升级
设计可学习的协调策略:用元网络或强化学习动态调节 TR、决定何时中断/重启规划线程,而非固定预算。
让规划线程输出不确定性或置信度,反应线程据此选择“跟随规划”或“紧急避险”,实现更细粒度的风险-效率权衡。
训练阶段融入实时约束
构建** urgency-aware 预训练或后训练**数据:在生成式强化学习中加入“token 预算”作为可微惩罚,鼓励模型在限定长度内输出高质量思考前缀。
探索早停/压缩式推理:训练模型在任意位置生成“提前出口”标记,供反应线程按需截断,进一步降低尾部延迟。
多模型异构与资源调度
采用大小模型组合(小模型跑 R 线程,大模型跑 P 线程),研究在总吞吐量受限时的最优模型配比与动态卸载策略。
在边缘设备上验证并发 vs 交替推理的能耗-延迟 Pareto 前沿,为低功耗机器人或车载终端提供部署指南。
理论分析与可解释性
建立实时推理复杂度模型:将环境演化速率、观测熵、动作空间与推理深度形式化,给出性能上界与预算下界。
可视化“部分思考痕迹”对反应决策的贡献度,量化不同中间表示的时效价值密度,指导未来表征学习。
安全与对齐
研究高压场景下 AgileThinker 是否会出现线程间策略冲突或过度乐观规划,引入安全屏蔽器与一致性检查。
在真实世界闭环控制(自动驾驶、服务机器人)中做红队测试,验证当规划线程出现错误时,反应线程能否及时纠错并给出可解释的安全回退。
Q6: 总结一下论文的主要内容
论文核心内容速览
问题提出
真实场景下环境持续演变,而 LLM 智能体仍默认“世界等我推理完”,导致逻辑正确但响应过时或及时但缺乏远见的失效模式。
平台构建
发布首个动态评测环境 Real-Time Reasoning Gym(Freeway / Snake / Overcooked),用 token 数作为硬件无关时间单位,每 NTE 个 token 强制环境前进一步,超时未输出动作则执行默认动作。
单范式缺陷
纯反应:受预算限制,认知负荷升高时性能悬崖(0.89→0.15)。
纯规划:时间压力升高时计划过时,分数骤降(0.92→0.05)。
方法设计
AgileThinker:双线程并行
– 规划线程 P 持续生成多步计划并流式暴露
– 反应线程 R 在每步最后 TR token 内,结合最新观测与 P 的局部推理快速决策。
实现“深度”与“时效”解耦,无需等待完整规划即可吸收长期洞察。
实验结果
在梯度变化的认知负荷与时间压力下,AgileThinker 下降斜率显著更缓;wall-clock 实验(DeepSeek API)验证 token-时间线性相关 (R²=0.999),真实延迟场景仍平均领先 0.40–0.89 绝对分数。
显著性检验与跨模型(V3.2、Gemini-2.5)复现一致优势;并发资源受限时仍优于单范式,证明收益主要来自认知分工而非额外算力。
结论与影响
首次形式化“实时推理”问题,提供可复现评测基准与双线程架构,为后续时敏 AI 系统研究奠定方法论与实验基础。
阅读全文 →
来源:Arxiv2025-11-07 00:51:02 UTC