Mind2Web 2:基于智能体裁判的自主搜索系统评估
来源: | 作者:DE.Tech | 发布时间: 2025-06-27 | 17 次浏览 | 分享到:

🌟 今日前沿论文 · 2025年6月27日

精选科技前沿资讯,洞察科技研究趋势

🔥🔥🔥🔥🔥智能搜索评估

Mind2Web 2:基于智能体裁判的自主搜索系统评估

#自主搜索#Agent-as-Judge#长周期任务#基准测试#评估框架

原文标题:Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

作者:Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su

原文摘要:Agentic search such as Deep Research systems, where large language models autonomously browse the web, synthesize information, and return comprehensive citation-backed answers, represents a major shift in how users interact with web-scale information. While promising greater efficiency and cognitive offloading, the growing complexity and open-endedness of agentic search have outpaced existing evaluation benchmarks and methodologies, which largely assume short search horizons and static answers. In this paper, we introduce Mind2Web 2, a benchmark of 130 realistic, high-quality, and long-horizon tasks that require real-time web browsing and extensive information synthesis, constructed with over 1,000 hours of human labor. To address the challenge of evaluating time-varying and complex answers, we propose a novel Agent-as-a-Judge framework. Our method constructs task-specific judge agents based on a tree-structured rubric design to automatically assess both answer correctness and source attribution. We conduct a comprehensive evaluation of nine frontier agentic search systems and human performance, along with a detailed error analysis to draw insights for future development. The best-performing system, OpenAI Deep Research, can already achieve 50-70% of human performance while spending half the time, showing a great potential. Altogether, Mind2Web 2 provides a rigorous foundation for developing and benchmarking the next generation of agentic search systems.

中文翻译:自主搜索(如Deep Research系统)通过大型语言模型自主浏览网络、合成信息并返回带有引用支持的综合答案,代表了用户与网络规模信息交互方式的重大转变。虽然自主搜索承诺更高效率和认知减负,但其日益增长的复杂性和开放性已超越了现有评估基准和方法论的范围,后者主要假设短搜索周期和静态答案。在本文中,我们介绍了Mind2Web 2,这是一个包含130个现实、高质量、长周期任务的基准,需要实时网络浏览和广泛的信息综合,构建耗费了超过1000小时的人工劳动。为了解决评估时变和复杂答案的挑战,我们提出了一个新颖的Agent-as-a-Judge框架。我们的方法基于树结构评分标准设计构建任务特定的裁判代理,以自动评估答案正确性和源归属。我们对九个前沿自主搜索系统和人类表现进行了全面评估,并进行了详细的错误分析以为未来发展提供见解。表现最佳的系统OpenAI Deep Research已能达到人类表现的50-70%,同时只花费一半时间,显示出巨大潜力。总体而言,Mind2Web 2为开发和基准测试下一代自主搜索系统提供了严格的基础。

智能问答:
Q: 这篇论文试图解决什么问题?
A: 这篇论文试图解决如何有效评估新一代自主搜索系统(agentic search systems)在处理复杂、长周期(long-horizon)和实时变化的任务时的表现。具体来说,论文介绍了Mind2Web 2,这是一个包含130个高质量、长周期任务的基准测试,这些任务需要实时网络浏览和广泛的信息整合。论文还提出了一个新颖的"Agent-as-a-Judge"评估框架,用于自动评估这些复杂、实时变化且需要引用支持的答案。传统评估方法主要关注短周期任务和静态答案,无法满足当前自主搜索系统日益增长的复杂性和开放性需求。Mind2Web 2通过提供更具挑战性的任务和先进的评估方法,旨在为开发和评估下一代自主搜索系统提供一个严格的基准。

Q: 有哪些相关研究?
A: 论文中提到了多个与自主搜索(agentic search)和相关评估方法有关的研究,主要包括:自主搜索(Agentic Search)方面有MindSearch、WebGPT、Mind2Web、OpenAI Operator、Deep Research Systems等;基准测试和评估方法(Benchmarks and Evaluation Methodologies)方面有Online-Mind2Web、WebVoyager、BEARCUBS、WebWalkerQA、GAIA、AssistantBench、BrowseComp等;其他相关研究有LLM-as-a-Judge、PaperBench、Agent-as-a-Judge等。这些研究为Mind2Web 2的开发提供了背景和基础,同时也展示了自主搜索系统和评估方法领域的最新进展。

Q: 论文如何解决这个问题?
A: 论文通过以下方式解决评估新一代自主搜索系统在处理复杂、长周期和实时变化的任务时的表现问题:构建Mind2Web 2基准测试,任务收集过程包括提议、细化和验证三个阶段,每个任务都经过多个阶段和数小时的专家劳动进行打磨和验证;提出Agent-as-a-Judge评估框架,设计了树形评分标准(Rubric Tree),每个叶子节点代表一个可以通过简单验证评估的标准,产生0或1的二元分数。这些分数通过父节点逐步聚合,以确定更高层次标准的分数;实施人类评估,为了验证评分标准和代理的可靠性,论文还进行了人类评估,验证了代理的高可靠性,正确率达到了99%;评估和比较多个系统,论文对九个前沿的自主搜索系统进行了全面评估,并进行了详细的错误分析。通过这些方法,论文不仅提供了一个用于评估自主搜索系统的基准测试,还提出了一种可靠、自动化的评估框架,能够处理复杂、长周期和实时变化的任务。

Q: 论文做了哪些实验?
A: 论文中进行了以下实验来评估和分析自主搜索系统的表现:1. 系统评估实验,实验目的是评估九个前沿自主搜索系统在Mind2Web 2基准测试上的表现,并与人类表现进行比较。实验设置包括系统选择(商业搜索产品、深度研究系统和网络代理)、评估指标(部分完成度、成功率、Pass@3、平均任务完成时间和平均回答长度)、运行方式(每个系统独立运行,每个任务运行三次)。实验结果显示OpenAI Deep Research表现最佳,部分完成度为0.54,成功率为0.28,而人类表现的部分完成度为0.79,成功率为0.54。2. 错误分析实验,实验目的是深入了解自主搜索系统在Mind2Web 2任务中的失败模式。定义了七种常见的错误类型,包括信息未找到、部分缺失、违反标准、无效引用、缺失引用、合成错误和检索错误。结论是当前自主搜索系统在处理需要实时信息和详细信息合成的任务时存在显著困难。3. 人类评估实验,实验目的是验证Agent-as-a-Judge评估框架的可靠性和准确性。实验结果显示Agent-as-a-Judge评估框架具有极高的可靠性,正确率达到99.03%。4. 时间变化任务的评估,实验目的是评估自主搜索系统在处理时间变化任务时的表现。结论是自主搜索系统需要整合实时网络浏览能力,以更好地处理需要实时信息的任务。这些实验全面评估了自主搜索系统在复杂、长周期和实时变化任务上的表现,揭示了当前系统的优点和局限性。

Q: 有什么可以进一步探索的点?
A: 尽管Mind2Web 2基准测试和Agent-as-a-Judge评估框架在评估自主搜索系统方面取得了显著进展,但仍有一些可以进一步探索的点:1. 任务多样性和覆盖范围,任务类型扩展(增加更多涉及多模态信息的任务),动态任务生成(探索动态生成任务的方法)。2. 评估方法的改进,多模态评估(扩展到图像、视频等其他形式的证据),实时反馈和适应性评估(支持实时反馈和适应性评估)。3. 系统性能提升,实时交互能力(探索更先进的实时交互技术),长周期任务的优化(优化系统的长期记忆和规划能力)。4. 人类与代理的协作,人机协作模式(探索人机协作模式),用户反馈机制(整合用户反馈进行自我改进)。5. 伦理和社会影响,信息真实性(检测和防止信息造假),公平性和偏见(设计公平的评估标准和系统)。6. 跨语言和跨文化评估,多语言支持(扩展到其他语言),跨文化适应性(适应不同文化的任务和评估方法)。7. 系统可解释性和透明度,可解释性(提高系统的解释性),透明度(支持对系统决策过程的透明度评估)。8. 大规模部署和应用,实际应用(将研究成果应用于实际系统),性能优化(优化系统性能以支持大规模应用)。这些方向不仅有助于进一步完善自主搜


注:数据公开发布,版权出版方所有,不构成任何投资建议
返回