Scaling Agents via Continual Pre-training

来源: | 作者:DE.Tech | 发布时间: 2025-09-18 | 134 次浏览 | 分享到:

大语言模型（LLMs）已发展为具备自主工具使用与多步推理能力的智能体系统，但基于通用基础模型的后训练方法（如 SFT、RL）在智能体任务中表现不佳（尤其开源实现）。其根本原因在于缺乏强大的智能体基础模型—— 后训练需同时让模型学习多样智能体行为与对齐专家演示，产生根本性优化冲突。为此，论文首次提出将智能体持续预训练（Agentic Continual Pre-training, Agentic CPT）纳入深度研究智能体训练流程，以构建性能强大的智能体基础模型。基于该方法，团队开发出深度研究智能体模型AgentFounder。实验评估显示，AgentFounder-30B在 10 个基准测试中均实现当前最优（SOTA）性能，同时保持优异的工具使用能力，关键指标包括：BrowseComp-en 任务 39.9%、BrowseComp-zh 任务 43.3%、HLE 任务 Pass@1 指标 31.5%。