Scaling Agents via Continual Pre-training
来源: | 作者:DE.Tech | 发布时间: 2025-09-18 | 134 次浏览 | 分享到:
大语言模型(LLMs)已发展为具备自主工具使用与多步推理能力的智能体系统,但基于通用基础模型的后训练方法(如 SFT、RL)在智能体任务中表现不佳(尤其开源实现)。其根本原因在于缺乏强大的智能体基础模型—— 后训练需同时让模型学习多样智能体行为与对齐专家演示,产生根本性优化冲突。为此,论文首次提出将智能体持续预训练(Agentic Continual Pre-training, Agentic CPT) 纳入深度研究智能体训练流程,以构建性能强大的智能体基础模型。基于该方法,团队开发出深度研究智能体模型AgentFounder。实验评估显示,AgentFounder-30B在 10 个基准测试中均实现当前最优(SOTA)性能,同时保持优异的工具使用能力,关键指标包括:BrowseComp-en 任务 39.9%、BrowseComp-zh 任务 43.3%、HLE 任务 Pass@1 指标 31.5%。


注:数据公开发布,版权出版方所有,不构成任何投资建议
返回