Scaling Agents via Continual Pre-training
来源:
|
作者:DE.Tech
|
发布时间: 2025-09-18
|
134 次浏览
|
分享到:
大语言模型(LLMs)已发展为具备自主工具使用与多步推理能力的智能体系统,但基于通用基础模型的后训练方法(如 SFT、RL)在智能体任务中表现不佳(尤其开源实现)。其根本原因在于缺乏强大的智能体基础模型—— 后训练需同时让模型学习多样智能体行为与对齐专家演示,产生根本性优化冲突。为此,论文首次提出将智能体持续预训练(Agentic Continual Pre-training, Agentic CPT) 纳入深度研究智能体训练流程,以构建性能强大的智能体基础模型。基于该方法,团队开发出深度研究智能体模型AgentFounder。实验评估显示,AgentFounder-30B在 10 个基准测试中均实现当前最优(SOTA)性能,同时保持优异的工具使用能力,关键指标包括:BrowseComp-en 任务 39.9%、BrowseComp-zh 任务 43.3%、HLE 任务 Pass@1 指标 31.5%。