Efficient Agent Training for Computer Use
来源:
|
作者:DE.Tech
|
发布时间: 2025-09-27
|
28 次浏览
|
分享到:
扩大高质量轨迹数据规模一直是开发类人计算机使用智能体的关键瓶颈。本文提出高效智能体训练框架 PC Agent-E,该框架可显著降低对大规模人类演示数据的依赖。该框架以仅 312 条人类标注的计算机使用轨迹为起点,借助 Claude 3.7 Sonnet 合成多样化的动作决策,进一步提升了数据质量。在这些增强轨迹数据上训练的 PC Agent-E 模型实现了 141% 的显著相对性能提升,在本文同步发布的改进型基准测试集 WindowsAgentArena-V2 上,其性能超越了具备扩展思考能力的强基准模型 Claude 3.7 Sonnet。此外,在 OSWorld 基准测试中,PC Agent-E 在不同操作系统上均展现出优异的泛化能力。研究表明,少量高质量轨迹数据即可激发智能体产生强大的计算机使用能力。本文开源了全套代码、数据及模型(链接:https://github.com/GAIR-NLP/PC-Agent-E),以助力该领域的未来研究。