APOLLO:异步人机协作的长周期任务训练框架
论文原始标题:Interaction as Intelligence Part II: Asynchronous Human-Agent Rollout for Long-Horizon Task Training
论文作者:Authors: Dayuan Fu, Yunze Wu, Xiaojie Cai, Lyumanshan Ye, Shijie Xia, Zhen Huang, Weiye Si, Tianze Xu, Jie Sun, Keyu Li, Mohan Jiang, Junfei Wang, Qishuo Hua, Pengrui Lu, Yang Xiao, Pengfei Liu
原始摘要:Large Language Model (LLM) agents have recently shown strong potential in domains such as automated coding, deep research, and graphical user interface manipulation. However, training them to succeed on long-horizon, domain-specialized tasks remains challenging. Current methods primarily fall into two categories. The first relies on dense human annotations through behavior cloning, which is prohibitively expensive for long-horizon tasks that can take days or months. The second depends on outcome-driven sampling, which often collapses due to the rarity of valid positive trajectories on domain-specialized tasks. We introduce Apollo, a sampling framework that integrates asynchronous human guidance with action-level data filtering. Instead of requiring annotators to shadow every step, Apollo allows them to intervene only when the agent drifts from a promising trajectory, by providing prior knowledge, strategic advice, etc. This lightweight design makes it possible to sustain interactions for over 30 hours and produces valuable trajectories at a lower cost. Apollo then applies supervision control to filter out sub-optimal actions and prevent error propagation. Together, these components enable reliable and effective data collection in long-horizon environments. To demonstrate the effectiveness of Apollo, we evaluate it using InnovatorBench. Our experiments show that when applied to train the GLM-4.5 model on InnovatorBench, Apollo achieves more than a 50% improvement over the untrained baseline and a 28% improvement over a variant trained without human interaction. These results highlight the critical role of human-in-the-loop sampling and the robustness of Apollo's design in handling long-horizon, domain-specialized tasks.
翻译标题:APOLLO:异步人机协作的长周期任务训练框架
翻译摘要:大型语言模型(LLM)智能体在自动化编码、深度研究和图形用户界面操作等领域的表现显示出强大的潜力。然而,在长周期、领域专精任务中训练它们仍面临挑战。目前的方法主要分为两类:第一类依赖于通过行为克隆进行密集人工标注,这在需要数天或数月的长周期任务中成本过高;第二类依赖于结果驱动采样,但由于领域专精任务中有效正轨迹稀少,常导致训练崩溃。我们引入 Apollo,一个结合异步人类指导与动作级数据过滤的采样框架。Apollo 不要求标注者每一步都进行跟踪,而是在智能体偏离有前景轨迹时提供先验知识、战略建议等。这种轻量设计使得可持续交互超过 30 小时,并以较低成本生成有价值的轨迹。Apollo 随后通过监督控制过滤掉次优动作,防止错误传播。这些组件共同实现了长周期环境中的可靠有效数据收集。为证明 Apollo 的有效性,我们在 InnovatorBench 上进行了评估。实验表明,当应用于 GLM-4.5 模型在 InnovatorBench 上的训练时,Apollo 相对于未训练基线提升了 50% 以上,相比无交互训练模型提升了 28%。这些结果突显了人机协同采样在处理长周期、领域专精任务中的关键作用。
智能问答:
Q1: 这篇论文试图解决什么问题?
论文针对“长周期、领域专精任务”中训练大模型智能体的数据获取瓶颈,提出 APOLLO 框架,核心解决以下问题:
密集人工标注成本过高
行为克隆需专家逐步记录,任务跨度数天至数月,标注代价不可承受。
纯结果驱动采样易崩溃
拒绝采样或 GRPO 等方法在专精领域有效轨迹极稀疏,训练信号几乎为零。
缺乏长周期人机协同基础设施
现有接口无法支持 30 h+ 异步监督,专家难以在“不全程盯梢”的前提下给出高质量反馈。
APOLLO 通过“异步高阶指导 + 动作级过滤”实现低成本、高价值轨迹采集,使 GLM-4.5 在 InnovatorBench 上相对无交互基线提升 28%,验证该范式可扩展至研究级长周期推理。
Q2: 有哪些相关研究?
论文在背景与实验部分提及了若干与“长周期智能体训练”“人机协同采样”“代码/研究任务环境”直接相关的研究,可归纳为以下四类:
代码智能体与工具接口
SWE-agent(Yang et al., 2024)提出 ACI,支持仓库级导航与补丁。
SWE-RL(Wei et al., 2025)利用真实 issue/PR 历史做 RL 训练。
OpenHands(Wang et al., 2024a)给出轻量级通用工具集,支撑通用计算机操作。
SWE-Dev(Du et al., 2025b; Wang et al., 2025c)通过轨迹增广扩大数据规模。
这些工作聚焦短周期软件任务,未解决持续数天的长周期科学发现场景。
轨迹采样与过滤策略
PC-Agent(Liu et al., 2025a; He et al., 2024)依赖密集人工过程奖励,标注成本高。
RFT(Yuan et al., 2023)用结果级拒绝采样保留高分轨迹。
Tool-STAR(Dong et al., 2025a)、DeepResearcher(Zheng et al., 2025)、ToRL(Li et al., 2025b)在多工具调用环境下做 rollout 探索。
ARPO(Dong et al., 2025b)引入优势归因与熵自适应分支。
上述方法仍受限于稀疏奖励与长程误差传播,APOLLO 通过“异步高阶指导 + 动作级掩码”显式稳定训练信号。
人机交互基础设施(HAI)
早期 HCI 工作(Schilit & Theimer 2002; Abowd et al. 1999)强调静态接口。
近期 HAI 研究(Ye et al., 2025a; Xiao et al., 2025)让 LLM 智能体能够实时解读并协作人类目标。
APOLLO 首次将 HAI 理念落地为可支撑 30 h+ 异步监督的完整前后端接口。
长周期评测基准
InnovatorBench(Team, 2025)提供 20 项端到端 LLM 研究任务,覆盖数据构造、损失/奖励设计、脚手架搭建等,单任务需数小时至数天,成为本文实验平台。
同期工作如 PaperBench(Starace et al., 2025)也关注“复现 AI 论文”场景,但未给出可扩展的训练基础设施。
综上,APOLLO 在“长周期+领域专精”维度上填补了代码智能体与结果驱动采样之间的空白,并通过专用 HAI 接口实现低成本、高质量轨迹采集。
Q3: 论文如何解决这个问题?
论文提出 APOLLO 框架,用三项核心设计一次性解决“长周期、领域专精”场景下的数据稀缺与训练不稳定问题:
异步高阶指导采样
不再要求专家逐步盯梢,而是让智能体在后台持续 rollout;
专家通过轻量级 Web 界面偶尔介入,仅在轨迹偏离目标时给出战略提示、纠错或先验知识;
后端用双线程(INGEST/FLUSH)解耦人机消息,支持30 h+ 断续监督而不阻塞 agent 推理。
动作级监督控制(Masking)
收集到的原始轨迹先用符号规则+LLM 法官双重过滤:
– 符号规则屏蔽报错动作、盲目改文件、低效 GPU 配置等;
– LLM 法官对比当前得分与历史最高,剔除与修订计划或用户提示相矛盾的动作。
训练阶段仅对保留动作计算交叉熵损失,阻断错误模式传播,稳定多轮优化。
长上下文与摘要机制
采用 ReAct 结构,轨迹超长时触发 summarizer Σ(·),把早期片段压缩成结构化摘要,保证关键实验状态、文件指针、错误反思不丢失;
摘要后的上下文继续参与后续决策,实现理论无限长度 rollout 而不过 128 k token 上限。
通过“异步指导 → 动作过滤 → 掩码训练”闭环,APOLLO 在 InnovatorBench 上相对无交互基线提升 28%,且模型可持续自我改进至 16 小时而不饱和,验证了该方案在长周期科研任务中的可扩展性与实用性。
Q4: 论文做了哪些实验?
论文在 InnovatorBench 上进行了系统实验,覆盖训练数据构造、主结果、样例剖析、消融与测试时缩放五个维度,具体设置与结论如下:
数据集与训练配置
环境:ResearchGym,42 动作分 5 族,支持异步多机执行。
训练集:自建 18 项任务(4 数据收集 / 3 过滤 / 3 增强 / 2 损失设计 / 3 脚手架 / 3 奖励设计),与测试集任务不重复。
基础模型:GLM-4.5,128 k 上下文,1 epoch,batch=64,lr 5e-6→1e-6 cosine。
标注:2 名专家异步介入,平均 30 h 滚动,Claude-4-Sonnet 负责初始 rollout。
主结果(Table 1)
APOLLO 在 6 大领域加权平均分 21.86,较官方 GLM-4.5 的 11.85 提升 +84%;
在数据收集、过滤、损失设计三项分别领先 +78%、+681%、+181%;
最佳单点得分 25.23(损失设计)超越 Claude-4-Sonnet 的 12.98,验证“交互+过滤”带来的绝对增益。
样例剖析(Figure 5)
耐心与资源调度:APOLLO 对多机 8×GPU 任务主动 sleep 3600 s 等待训练完成,GLM-4.5 仅 sleep 60 s 即终止,导致 vLLM 导入失败。
迭代反思:数据清洗任务中,APOLLO 根据 eval 反馈三次调整过滤策略,得分从 5→13.84;GLM-4.5 无视反馈提前 finish,得分停滞 5。
消融实验(Table 2)
w/o Interaction:平均分跌至 12.66,证明人类异步指导是主要信号来源;
w/o Masking:平均分 18.46,在损失设计领域从 25.23 暴跌至 1.82,说明动作过滤对阻止错误传播至关重要;
两者同时缺失时性能低于官方基线,进一步凸显双组件正交增益。
测试时缩放曲线(Figure 6)
APOLLO 可持续改善至 16 h 才饱和,最终平均得分 ≈22;
无交互模型 4 h 后停滞,无 Masking 模型 8 h 后反降,表明错误动作累积会削弱长时间探索能力;
实验首次量化展示“人回路采样 → 更长测试时收益”的 scaling 规律。
综上,论文通过多维度实验验证:APOLLO 在真实长周期研究任务中同时实现数据高效、训练稳定、推理可持续三项优势。
Q5: 有什么可以进一步探索的点?
后续可在下列五个方向继续深化,括号内给出可验证的量化指标或实验设置,便于直接落地。
多专家协同与角色分工
引入“领域专家+方法论专家+系统运维”三类异步接口,探索专家角色异构对轨迹质量的影响;
指标:相同 30 h 预算下,3 专家并行 vs 1 专家顺序,InnovatorBench 平均分提升是否 ≥5%。
richer 反馈模态
支持语音片段、手绘草图、公式截图等高阶输入,降低专家认知负荷;
指标:在新增 10 项“数学推导-代码实现”混合任务上,语音-草图组 vs 文本组,平均首次通过时间缩短是否 ≥20%。
自动化“问题发现”模块
用小模型 critic 实时检测轨迹漂移,主动弹窗提醒专家,进一步压缩人类在线时长;
指标:在 20 任务 × 2 重复实验中,人类累计在线时长从 30 h 降至 ≤10 h 而性能不降级。
跨领域迁移与元策略
将 APOLLO 轨迹在材料科学、生物信息、气象预报三类新环境微调,验证策略可迁移性;
指标:零样本迁移 vs 用 5 条新领域人工轨迹微调,平均得分提升是否 ≥15%。
多智能体互评与自洽过滤
让 3 个同构 agent 并行 rollout,互评动作质量,用投票或贝叶斯融合替代单一 LLM 法官;
指标:相同训练步数下,互评过滤 vs 单法官过滤,InnovatorBench 最终平均分提升是否 ≥3%,同时人工标注量减少 50%。
以上方向均可在现有 ResearchGym/InnovatorBench 框架内快速实现,为长周期智能体训练提供新的 scaling 维度与实用价值。
Q6: 总结一下论文的主要内容
问题:长周期、领域专精任务中,行为克隆标注成本极高,纯结果驱动采样因正轨迹稀疏而崩溃,缺乏可持续的人机协同基础设施。
方法:提出 APOLLO 框架,以“异步高阶指导 + 动作级掩码过滤”为核心:
轻量级 Web 界面让专家偶尔介入,30 h+ 滚动监督而不全程盯梢;
符号规则 + LLM 法官实时屏蔽错误动作,训练仅对保留动作计算损失,阻断误差传播;
超长轨迹自动摘要,保证上下文不超限。
实验:在 20 项 InnovatorBench 任务上,GLM-4.5 经 APOLLO 训练后加权平均分从 11.85 → 21.86(+84%),领先 Claude-4-Sonnet 与无交互基线分别达 28% 与 28%;消融显示人机交互与动作过滤各自贡献显著;测试时缩放曲线表明模型可持续改进至 16 小时才饱和。
结论:APOLLO 以低成本获得高质量长周期轨迹,为训练具备研究级推理能力的大模型智能体提供了可扩展范式。
阅读全文 →