即席人机协作挑战:基于Hanabi游戏的AI-人类协调评估
来源: | 作者:DE.Tech | 发布时间: 2025-06-27 | 16 次浏览 | 分享到:

🌟 今日前沿论文 · 2025年6月27日

精选科技前沿资讯,洞察科技研究趋势

🔥🔥🔥🔥🔥人机协作

即席人机协作挑战:基于Hanabi游戏的AI-人类协调评估

#人机协作#AI协调#Hanabi游戏#人类代理模型#评估基准

原文标题:Ad-Hoc Human-AI Coordination Challenge

作者:Tin Dizdarević, Ravi Hammond, Tobias Gessler, Anisoara Calinescu, Jonathan Cook, Matteo Gallici, Andrei Lupu, Jakob Nicolaus Foerster

原文摘要:Achieving seamless coordination between AI agents and humans is crucial for real-world applications, yet it remains a significant open challenge. Hanabi is a cooperative card game featuring imperfect information, constrained communication, theory of mind requirements, and coordinated action -- making it an ideal testbed for human-AI coordination. However, its use for human-AI interaction has been limited by the challenges of human evaluation. In this work, we introduce the Ad-Hoc Human-AI Coordination Challenge (AH2AC2) to overcome the constraints of costly and difficult-to-reproduce human evaluations. We develop textit{human proxy agents} on a large-scale human dataset that serve as robust, cheap, and reproducible human-like evaluation partners in AH2AC2. To encourage the development of data-efficient methods, we open-source a dataset of 3,079 games, deliberately limiting the amount of available human gameplay data. We present baseline results for both two- and three- player Hanabi scenarios. To ensure fair evaluation, we host the proxy agents through a controlled evaluation system rather than releasing them publicly. The code is available at href{https://github.com/FLAIROx/ah2ac2}{https://github.com/FLAIROx/ah2ac2}.

中文翻译:实现AI代理与人类之间的无缝协调对现实世界的应用至关重要,但这仍然是一个重大的开放挑战。Hanabi是一款合作性卡牌游戏,具有不完全信息、受限沟通、心理理论要求和协调行动等特点,使其成为人机协调的理想测试平台。然而,由于人类评估的挑战,其在人机交互中的应用受到了限制。在这项工作中,我们引入了即席人机协调挑战(AH2AC2),以克服昂贵且难以重现的人类评估的限制。我们在大规模人类数据集上开发了人类代理模型,作为AH2AC2中鲁棒、廉价且可重现的类人评估伙伴。为了鼓励数据高效方法的开发,我们开源了一个包含3,079场游戏的数据集,故意限制可用的人类游戏数据量。我们展示了双人和三人Hanabi场景的基线结果。为确保公平评估,我们通过受控评估系统托管代理模型,而不是公开发布它们。代码可在https://github.com/FLAIROx/ah2ac2获得。

智能问答:
Q: 这篇论文试图解决什么问题?
A: 这篇论文试图解决的问题是如何实现人工智能(AI)代理与人类在复杂环境中的无缝协作。具体来说,论文关注的是在部分可观测环境中,AI代理与人类之间的协调问题。这一问题在现实世界的应用中至关重要,例如医疗保健中的协作决策、自动驾驶汽车中的共享控制、机器人技术以及高级数字助理等领域。然而,目前在这一领域仍存在显著的挑战,尤其是在如何使AI代理能够有效地与人类合作以完成任务方面。论文指出,尽管AI在许多领域取得了显著进展,但在与人类协作的复杂设置中,传统的训练方法(如自我对弈)往往会导致AI代理过度适应特定策略,从而限制了它们与新伙伴(包括人类)的协作能力。此外,目前缺乏标准化的基准测试来准确反映与人类交互的复杂性,现有的评估方法通常依赖于封闭数据集和专有的代理,这阻碍了研究的可重复性和广泛进展。为了解决这些问题,论文提出了一个名为"Ad-Hoc Human-AI Coordination Challenge (AH2AC2)"的挑战,旨在通过使用一个合作性卡牌游戏Hanabi作为测试平台,来评估AI代理与人类的协调能力。

Q: 有哪些相关研究?
A: 论文中提到了多个与人类-AI协调相关的研究,这些研究涵盖了从理论基础到具体应用的多个方面。主要包括:人类-AI协调的理论基础方面有Decentralized Partially Observable Markov Decision Processes (Dec-POMDPs),Zero-shot Coordination (ZSC) 和 Ad-hoc Teamplay等概念;Hanabi作为人类-AI协调的测试平台方面包括Hanabi游戏的特性,以及先前在Hanabi中的人类-AI协调研究;人类代理模型(Human Proxy Agents)的开发方面包括行为克隆(Behavioural Cloning, BC)和正则化强化学习(Regularized Reinforcement Learning, RL);其他相关研究包括Fictitious Co-Play (FCP)和Large Language Models (LLMs) 在人类-AI协调中的应用。这些相关研究为论文提出的Ad-Hoc Human-AI Coordination Challenge (AH2AC2)提供了理论和技术基础,并展示了在人类-AI协调领域中不断发展的研究趋势。

Q: 论文如何解决这个问题?
A: 论文通过以下方法来解决人类-AI协调的问题:提出Ad-Hoc Human-AI Coordination Challenge (AH2AC2),开发人类代理模型(Human Proxy Agents),为了克服人类评估的限制,论文开发了人类代理模型,这些模型基于大规模人类数据集训练,能够作为可靠、廉价且可重复的人类评估伙伴。这些代理模型通过结合行为克隆(Behavioural Cloning, BC)和正则化强化学习(Regularized Reinforcement Learning, RL)来训练,以确保它们在保持人类风格的同时具备良好的泛化能力。开源有限的人类游戏数据集:为了鼓励开发数据高效的算法,论文开源了一个包含3,079局游戏的有限数据集,包括1,858局双人游戏和1,221局三人游戏。提供评估协议和排行榜:为了确保评估的公正性和一致性,论文通过一个控制的评估系统托管人类代理模型,而不是公开发布它们。研究人员需要预先注册实验,才能获得与人类代理模型进行1,000局游戏评估的权限。评估结果将发布在公共排行榜上,以跟踪研究进展。提供基线方法,多种基线方法:论文提供了多种基线方法,包括零样本协调方法(如Off-Belief Learning, OBL)、数据依赖方法(如Best Response to Behavioural Cloning, BR-BC)以及种群方法(如Fictitious Co-Play, FCP)。评估大型语言模型(LLMs):论文还评估了大型语言模型(如DeepSeek-R1)在人类-AI协调中的表现,这为研究AI代理的理解和推理能力提供了新的视角。

Q: 论文做了哪些实验?
A: 论文中进行了以下实验来验证所提出的人类代理模型(Human Proxy Agents)和评估框架的有效性:1. 自我对弈(Self-Play, SP)评估,实验目的是验证人类代理模型在自我对弈中的性能,与纯行为克隆(BC)策略进行比较。实验结果显示在双人游戏中,人类代理模型的平均得分为22.55,而BC策略的平均得分为19.53。在三人游戏中,人类代理模型的平均得分为20.88,而BC策略的平均得分为7.19。人类代理模型在自我对弈中表现出了显著的性能提升,尤其是在三人游戏中,BC策略的得分较低,而人类代理模型能够有效地避免零分游戏,显示出更强的鲁棒性。2. 交叉对弈(Cross-Play)评估,实验目的是验证人类代理模型与BC策略之间的兼容性,即它们是否能够有效地协作。实验结果表明,人类代理模型不仅能够自我对弈表现良好,还能与BC策略有效地协作,显示出良好的兼容性。3. 行为分析,实验目的是验证人类代理模型的行为是否符合人类玩家的行为模式。这些结果表明,人类代理模型在行为上与人类玩家非常相似,验证了其人类风格的行为。4. 基线方法评估,实验目的是评估多种基线方法在AH2AC2挑战中的表现。这些结果表明,现有的方法在利用有限人类数据提升人类-AI协调方面存在挑战,需要开发更高效的数据利用方法。5. 大型语言模型(LLMs)评估,实验目的是评估大型语言模型(如DeepSeek-R1)在人类-AI协调中的表现。这些结果表明,尽管DeepSeek-R1在三人游戏中表现相对较好,但在双人游戏中仍显著低于OBL等基线方法,显示出大型语言模型在人类-AI协调中的潜力,但仍需进一步改进。

Q: 有什么可以进一步探索的点?
A: 论文提出了Ad-Hoc Human-AI Coordination Challenge (AH2AC2)来评估人类-AI协调,并提供了人类代理模型和多种基线方法。尽管取得了显著进展,但仍有许多可以进一步探索的方向:1. 理论分析,HDR-IPPO的理论分析:虽然实验结果表明HDR-IPPO在生成人类风格的代理方面非常有效,但其理论基础尚未完全清楚。零样本协调(ZSC)的理论基础:尽管ZSC在某些情况下表现出色,但其在复杂环境中的理论保证和性能界限尚未完全理解。2. 评估和扩展,扩展基准测试:目前的AH2AC2挑战仅涵盖了2人和3人游戏的标准Hanabi变体。直接人类-AI互动:虽然人类代理模型在实验中表现良好,但最终的验证需要通过实际的人类-AI互动来完成。多模态评估:除了游戏得分和行为指标外,还可以探索多模态评估方法。3. 方法改进,数据高效的学习方法、大型语言模型(LLMs)的改进、种群方法的改进。4. 应用和实践,实际应用中的协调、用户研究和反馈、伦理和社会影响。5. 技术创新,多智能体强化学习的新方法、跨领域协调。这些方向不仅有助于进一步完善AH2AC2挑战,还可以推动人类-AI协调领域的整体发展,为未来的AI系统设计和应用提供新的思路和方法。

Q: 总结一下论文的主要内容
A: 论文《Ad-Hoc Human-AI Coordination Challenge》的核心内容是提出了一个名为Ad-Hoc Human-AI Coordination Challenge (AH2AC2)的挑战,旨在评估AI代理与人类在合作性卡牌游戏Hanabi中的协调能力。该挑战通过开发人类代理模型(Human Proxy Agents)来克服人类评估的限制,并提供了一个标准化的评估框架。研究背景显示人类-AI协调的重要性随着AI技术的发展变得越来越重要,但传统训练方法的局限性和缺乏标准化基准测试限制了研究进展。研究方法包括AH2AC2挑战的提出,人类代理模型的开发,以及开源有限数据集。实验评估包括自我对弈评估、交叉对弈评估、行为分析、基线方法评估和大型语言模型评估。关键结论显示人类代理模型的有效性,现有方法的局限性,以及LLMs的潜力和改进空间。未来研究方向包括理论分析、基准测试的扩展、直接人类-AI互动、数据高效的学习方法、LLMs的改进。论文通过提出AH2AC2挑战和人类代理模型,为人类-AI协调领域提供了一个标准化的评估框架和多种基线方法,推动了这一领域的研究进展。
阅读全文 →

注:数据公开发布,版权出版方所有,不构成任何投资建议
返回