Decrypto基准:多智能体推理和理论化思维评估平台
来源: | 作者:DE.Tech | 发布时间: 2025-06-26 | 12 次浏览 | 分享到:

🌟 今日前沿论文 · 2025年1月3日

精选科技前沿资讯,洞察科技研究趋势

🔥🔥🔥🔥🔥 多智能体AI

Decrypto基准:多智能体推理和理论化思维评估平台

#多智能体 #理论化思维 #基准测试 #游戏AI #认知科学

原文标题:The Decrypto Benchmark for Multi-Agent Reasoning and Theory of Mind

作者:Andrei Lupu, Timon Willi, Jakob Foerster

原文摘要:As Large Language Models (LLMs) gain agentic abilities, they will have to navigate complex multi-agent scenarios, interacting with human users and other agents in cooperative and competitive settings. This will require new reasoning skills, chief amongst them being theory of mind (ToM), or the ability to reason about the "mental" states of other agents. However, ToM and other multi-agent abilities in LLMs are poorly understood, since existing benchmarks suffer from narrow scope, data leakage, saturation, and lack of interactivity. We thus propose Decrypto, a game-based benchmark for multi-agent reasoning and ToM drawing inspiration from cognitive science, computational pragmatics and multi-agent reinforcement learning. It is designed to be as easy as possible in all other dimensions, eliminating confounding factors commonly found in other benchmarks. To our knowledge, it is also the first platform for designing interactive ToM experiments. We validate the benchmark design through comprehensive empirical evaluations of frontier LLMs, robustness studies, and human-AI cross-play experiments. We find that LLM game-playing abilities lag behind humans and simple word-embedding baselines. We then create variants of two classic cognitive science experiments within Decrypto to evaluate three key ToM abilities. Surprisingly, we find that state-of-the-art reasoning models are significantly worse at those tasks than their older counterparts. This demonstrates that Decrypto addresses a crucial gap in current reasoning and ToM evaluations, and paves the path towards better artificial agents.

中文翻译:随着大型语言模型(LLMs)获得代理能力,它们必须在复杂的多智能体场景中导航,在合作和竞争环境中与人类用户和其他代理进行交互。这将需要新的推理技能,其中最重要的是理论化思维(ToM),即推理其他代理"心理"状态的能力。然而,LLMs中的ToM和其他多智能体能力尚未被充分理解,因为现有基准测试存在范围狭窄、数据泄露、饱和以及缺乏互动性等问题。因此,我们提出了Decrypto,这是一个基于游戏的多智能体推理和ToM基准测试,从认知科学、计算语用学和多智能体强化学习中汲取灵感。它被设计为在所有其他维度上尽可能简单,消除了其他基准测试中常见的混淆因素。据我们所知,它也是第一个设计交互式ToM实验的平台。我们通过对前沿LLMs的综合实证评估、稳健性研究和人机交叉游戏实验来验证基准设计。我们发现LLM的游戏能力落后于人类和简单的词嵌入基线。然后,我们在Decrypto中创建了两个经典认知科学实验的变体,以评估三种关键的ToM能力。令人惊讶的是,我们发现最先进的推理模型在这些任务上的表现明显比其旧版本要差。这表明Decrypto解决了当前推理和ToM评估中的关键差距,并为更好的人工代理铺平了道路。

智能问答:
Q: 这篇论文试图解决什么问题?
A: 这篇论文试图解决的问题是:如何有效地评估大型语言模型(LLMs)在多智能体场景中的推理能力和理论化思维(Theory of Mind, ToM)能力。随着LLMs在各种应用中逐渐获得代理(agentic)能力,它们需要在复杂多智能体环境中与人类用户和其他代理进行互动,这些互动既包括合作也包括竞争。因此,LLMs需要具备ToM能力,即能够推理其他代理(无论是人工的还是生物的)的心理状态,包括它们的知识、信念、意图和能力。然而,现有的LLMs的ToM能力和多智能体能力尚未被充分理解,因为现有的基准测试存在范围狭窄、数据泄露、饱和以及缺乏互动性等问题。为了解决这一差距,论文提出了Decrypto,这是一个基于游戏的多智能体推理和ToM基准测试,它从认知科学、计算语用学和多智能体强化学习中汲取灵感。Decrypto旨在尽可能地简化其他维度的复杂性,消除在其他基准测试中常见的混淆因素,并且是第一个为设计互动ToM实验提供平台的基准测试。

Q: 有哪些相关研究?
A: 论文中提到了多个与多智能体推理和理论化思维(Theory of Mind, ToM)相关的研究工作,以下是一些关键的相关研究:多智能体推理方面,BattleAgentBench (Wang et al., 2024)评估LLMs在多智能体系统中的合作和竞争能力的基准测试,但主要关注空间推理,而不是Decrypto所关注的语言推理和ToM能力;多机器人研究 (Li et al., 2023)研究LLMs在多机器人环境中的表现,同样侧重于空间推理;Werewolf和Avalon游戏 (Xu et al., 2023b,c; Light et al., 2023)这些社交推理游戏为研究LLMs提供了一个平台,但由于其自由形式的对话和频繁的欺骗行为,提供的结构化和原子化见解较少;AgentPro (Zhang et al., 2024b)专注于竞争性场景,如扑克和21点游戏,但缺乏合作方面。理论化思维(ToM)方面,ToM-net (Rabinowitz et al., 2018)训练一个简单的网络来预测其他人工代理的行为,并基于错误信念采取行动;Tombench (Chen et al., 2024)评估LLMs在建模人类信念方面的表现;Fantom (Kim et al., 2023)一个压力测试LLMs在互动中ToM能力的基准;Hi-tom (He et al., 2023)评估LLMs在更高阶ToM推理方面的基准;ExploreToM (Sclar et al., 2024)通过程序引导的对抗性数据生成来增强LLMs的ToM推理能力;Re-evaluating ToM evaluation (Hu et al., 2025)对LLMs在ToM任务上的表现进行了重新评估,指出现有基准存在偏差。

Q: 论文如何解决这个问题?
A: 论文通过提出 Decrypto,一个基于游戏的基准测试来解决评估大型语言模型(LLMs)在多智能体场景中的推理能力和理论化思维(Theory of Mind, ToM)的问题。Decrypto 是一个基于语言的代码猜测游戏,灵感来源于同名的获奖桌面游戏。游戏涉及三个角色:编码器(Alice)、解码器(Bob)和拦截者(Eve)。Alice 和 Bob 是一个团队,他们共享四个秘密关键词,Alice 需要通过提供三个提示来帮助 Bob 猜出一个三位数字代码,同时防止 Eve 猜出代码。游戏的每个回合包括加密阶段、解密阶段和公开揭示阶段。Decrypto 的设计目标是尽可能简化其他维度的复杂性,以专注于多智能体推理和ToM能力,完全基于单词联想,消除了与LLMs性能相关的常见混淆因素。游戏规则简单,易于LLMs理解,但掌握游戏需要高级的推理能力。游戏的难度可以通过选择不同的代理来调整,使得基准测试难以饱和。论文通过广泛的实验验证了Decrypto基准测试的有效性,包括LLMs表现评估、人类-AI交叉实验、ToM实验等,引入了新的游戏指标来衡量游戏结果对玩家或提示变化的敏感性。

Q: 论文做了哪些实验?
A: 论文中进行了多种实验,以全面评估大型语言模型(LLMs)在多智能体场景中的推理能力和理论化思维(Theory of Mind, ToM)能力。主要实验包括:1. LLMs的多智能体推理能力评估,包括合作评估(Alice和Bob由不同的LLMs扮演,评估协调能力)和竞争评估(评估Alice和Bob在对抗Eve时的表现);2. 人类-AI交叉实验,人类玩家与LLMs合作或对抗,评估LLMs在人类-AI互动中的表现;3. ToM能力评估,包括代表变化(RC)实验(基于"Smarties任务",评估LLMs是否能够识别自身信念的变化)、错误信念(FB)实验(评估LLMs是否能够识别其他代理的错误信念)、视角转换(PT)实验(基于"三山问题",评估LLMs是否能够从其他代理的视角进行推理);4. 基线模型评估,使用基于词嵌入的基线模型进行自玩和交叉评估;5. 提示和生成参数的鲁棒性评估,通过改变系统提示和用户提示,评估LLMs对提示变化的鲁棒性。实验发现LLMs在游戏能力、人类-AI协调、ToM能力等方面都存在显著不足。

Q: 有什么可以进一步探索的点?
A: 论文提出了多个可以进一步探索的研究方向:1. 改进LLMs的ToM能力,开发新的方法来增强LLMs的ToM能力,探索多智能体强化学习(MARL)算法在LLMs上的应用;2. 扩展ToM实验,设计更多基于认知心理学的经典ToM实验的变体,研究不同文化背景下的LLMs表现;3. 人类-AI协调研究,进行更广泛的人类-AI协调实验,开发更多交互式环境;4. 基准测试的扩展和改进,引入更多类型的智能体,开发动态难度调整机制;5. 理论化思维的其他方面,研究LLMs在推理其他代理的意图和情感方面的表现,研究长期互动中的ToM能力;6. 计算成本和效率,开发更高效的评估方法,提供本地化和分布式计算支持;7. 多智能体场景中的其他能力,研究如何更好地平衡合作和竞争场景,进一步研究部分可观测性和随机性;8. 跨领域应用,将Decrypto的思路应用于其他领域,探索多模态交互中的表现。

Q: 总结一下论文的主要内容
A: 这篇论文提出了 Decrypto,这是一个基于游戏的基准测试,用于评估大型语言模型(LLMs)在多智能体场景中的推理能力和理论化思维(Theory of Mind, ToM)。研究背景是随着LLMs获得代理能力,需要在复杂多智能体环境中进行互动,需要具备ToM能力,但现有基准测试存在诸多问题。Decrypto基准测试是一个基于语言的代码猜测游戏,涉及编码器、解码器和拦截者三个角色,游戏设计消除了混淆因素,难度可调。论文通过多智能体推理和ToM能力评估,包括合作评估、竞争评估和ToM实验等。实验验证包括LLMs表现评估、人类-AI交叉实验、ToM实验等,发现LLMs在各方面都存在不足。论文结论是Decrypto为评估和改进LLMs提供了强大工具,揭示了LLMs的不足,并为未来研究提供了重要方向。通过这些内容,论文不仅提出了一个新的基准测试,还通过广泛的实验验证了其有效性,并指出了未来研究的多个方向。

Q: 想要进一步了解论文
A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。 阅读全文 →

注:数据公开发布,版权出版方所有,不构成任何投资建议
返回