超越并欺骗精英人类:通过自博弈与强化学习掌握Liar's Poker
论文原始标题:Outbidding and Outbluffing Elite Humans: Mastering Liar's Poker via Self-Play and Reinforcement Learning
论文作者:Authors: Richard Dewey, Janos Botyanszki, Ciamac C. Moallemi, Andrew T. Zheng
原始摘要:AI researchers have long focused on poker-like games as a testbed for environments characterized by multi-player dynamics, imperfect information, and reasoning under uncertainty. While recent breakthroughs have matched elite human play at no-limit Texas hold'em, the multi-player dynamics are subdued: most hands converge quickly with only two players engaged through multiple rounds of bidding. In this paper, we present Solly, the first AI agent to achieve elite human play in reduced-format Liar's Poker, a game characterized by extensive multi-player engagement. We trained Solly using self-play with a model-free, actor-critic, deep reinforcement learning algorithm. Solly played at an elite human level as measured by win rate (won over 50% of hands) and equity (money won) in heads-up and multi-player Liar's Poker. Solly also outperformed large language models (LLMs), including those with reasoning abilities, on the same metrics. Solly developed novel bidding strategies, randomized play effectively, and was not easily exploitable by world-class human players.
翻译标题:超越并欺骗精英人类:通过自博弈与强化学习掌握Liar's Poker
翻译摘要:人工智能研究人员长期以来将扑克类游戏作为多玩家动态、不完全信息和不确定性推理环境的测试平台。尽管最近的突破在无限注德州扑克中与精英人类玩家水平相当,但多玩家动态却被削弱:大多数牌局迅速退化为两人对决,仅通过多轮叫价进行。本文介绍了 Solly,这是首个在缩减版 Liar's Poker 中实现并超越精英人类水平的 AI 代理。我们使用无模型、演员-评论家、深度强化学习算法进行自博弈训练。Solly 在一对一和多人 Liar's Poker 中的表现达到了精英人类水平,通过胜率(超过 50% 的牌局胜利)和资金收益(money won)进行衡量。Solly 还在相同指标上超越了大型语言模型(LLMs),包括具有推理能力的模型。Solly 开发了新颖的叫价策略,有效地随机化了玩法,并且不容易被世界级的人类玩家利用。

智能问答:
Q1: 这篇论文试图解决什么问题?
论文旨在解决“多人不完全信息博弈中,所有玩家全程深度参与”这一场景下的策略学习难题。具体而言:
现有扑克 AI(如 Pluribus)虽在多人无限注德州扑克中击败人类,但大部分牌局因大量玩家提前弃牌而迅速退化为二人对决,无法充分检验多人动态下的推理与协作/对抗能力。
Liar’s Poker 作为一种天然需要 3 人以上全程叫价、含独有“重叫(rebid)”机制、且高度依赖概率推断与诈唬的博弈,恰好填补了该空白。
作者首次将深度强化学习(R-NaD 演员-评论家)扩展到该多人设置,训练出 agent「Solly」,验证其能否在缩小版 Liar’s Poker(3×3 与 5×5)中达到甚至超越顶尖人类水准,并系统评估其策略可剥削性、对 LLM 的优越性,以及向完整 8×10 规模扩展的可行性。
Q2: 有哪些相关研究?
相关研究按主题归类如下:
不完全信息扑克 AI
DeepStack (Moravčík et al., 2017) 与 Libratus (Brown & Sandholm, 2017) 用 CFR+搜索解决 Heads-up NLTH。
Pluribus (Brown & Sandholm, 2019) 将蒙特卡洛 CFR 与自博弈扩展到 6 人 NLTH,但多数牌局迅速退化为 2 人。
多人骰子类诈唬博弈
Neller & Hnath (2011) 用表格 CFR 求解 2 人 Dudo。
Gendre & Kaneko (2019) 尝试多人 Dudo 单轮设置,仅与基线而非人类对比。
通用博弈学习框架
NFSP (Heinrich & Silver, 2016) 首次把神经网络与 fictitious self-play 结合。
ReBel (Brown et al., 2020) 与 Student-of-Games (Schmid et al., 2023) 统一了搜索、自博弈与博弈论推理,但仍侧重 2 人或浅层多人交互。
模型-free 多人均衡学习
DeepNash / R-NaD (Perolat et al., 2021, 2022) 在 2 人 Stratego 上无需搜索即可收敛到近似纳什均衡;本文首次将 R-NaD 扩展到 ≥3 人设置。
Sokota et al. (2023) 的 MMD 算法与 R-NaD 同源,可作为替代优化器。
LLM 博弈测试
Cicero (Brown et al., 2022) 把语言模型与规划结合,在 Diplomacy 中达到人类水平;本文则评估 GPT-4.1 与 o3 在同等规则下的策略缺陷。
Q3: 论文如何解决这个问题?
论文采用“模型无关、演员-评论家、自博弈深度强化学习”路线,具体步骤如下:
算法选择
以 OpenSpiel 实现的 Regularized Nash Dynamics(R-NaD)为核心,该算法在两人零和场景下具有收敛到纳什均衡的理论保证;作者首次将其扩展到 ≥3 人设置,所有玩家共享同一策略网络,训练步同时吸收各位置样本。
状态与动作建模
输入张量编码:己方手牌(digit counts)、座位号、各玩家历史叫价与挑战的 one-hot 序列、是否可重叫位、轨迹终止标志。
输出:对所有合法动作(更高叫价或挑战)的 logits;softmax 后依概率采样行动,训练阶段将<3% 的概率置零并离散到 32 格以降低方差。
网络与计算约束
使用 2×256 隐层的 MLP(规模实验最多 7×512),在 8–24 GB 内存的 Apple Silicon 单机上完成训练;3×3 三人局约 0.37 M 局/天,总步数 5–10 M 级即可收敛。
训练流程
自博弈生成整轮轨迹,批量上限 15–25 步以容纳重叫带来的长序列。
每步用所有玩家回报同步更新价值头与策略头,无需外部人类数据或搜索。
策略质量验证
人类对抗:邀请 7 位 1980–90 年代华尔街顶级玩家进行 100–100 手 2 人与 3 人实验,记录胜率与资金盈亏(equity)。
可剥削性评估:用 DQN 训练最佳响应(best-response)代理固定 Solly 策略,观测平均回报随训练进程下降至 0.25 筹码,表明 exploitability 不断降低。
基线与 LLM 对比:
– 构建仅按条件二项概率做贪心决策的确定性基线,Solly 在 1000 局 3×3 Heads-up 中净赚 +16 筹码/百局。
– 对 GPT-4.1 与 o3 进行 1000 局测试,Solly 分别赢 60% 与 55%,且 LLM 从不使用重叫,暴露其缺乏诈唬与深度推理。
向完整规模扩展的预实验
引入手牌抽象(canonical hand 聚类)、加深网络、奖励放大 10× 等技巧,在 3×3 三人局上 best-response 分数进一步下降,验证放大到 8×10 实尺度的可行性。
通过上述流程,论文首次在“全程多人参与、含重叫诈唬”的 Liar’s Poker 上达到并超越精英人类水平,同时保持低算力可复现性。
Q4: 论文做了哪些实验?
实验按评估对象与规模可分为四大类,共累计约 7 000 余局实战牌局,辅以 exploitability 曲线与消融测试。
人类精英对抗
3×3 二人局:100 局 vs 5 位华尔街资深玩家(每人 20 局),Solly 胜率 48%,资金 equity −4/百局(误差±10)。
5×5 二人局:100 局,胜率 55%,equity +$10/百局。
3×3 三人局:100 局(2 人 + Solly),胜率 54%,equity +$17/百局(se = 0.15,不能拒绝“零假设”)。
记录每类手牌(散牌/对子/三条)的分项胜率与叫牌/挑战比例,发现人类在“对子”牌型显著落后,Solly 重叫率 33% vs 人类 8%。
最佳响应(exploitability)测试
用 DQN 训练独立 exploit 代理固定 Solly checkpoints(每 5 k 步评估 1 k 局)。
3×3 三人局:10 k 步 checkpoint 被 exploit 收益 ≈ 1.0 筹码/局;5 M 步后降至 0.25 筹码/局,且三座位间无显著差异。
基线与 LLM 对比
确定性“条件二项概率”基线:1 000 局 3×3 二人,Solly +16 筹码/百局。
GPT-4.1:1 000 局,Solly 60% 胜,83% 靠成功叫牌;GPT 从未重叫。
OpenAI o3:1 000 局,Solly 55% 胜;o3 靠叫牌赢面升至 53%,但仍无重叫。
附加 50 局 o3 vs 人类,人类表现优于对 Solly,印证 LLM 策略静态、易被适应。
规模化与消融预实验
手牌抽象(canonical counts 代替原始数字)(–0.04 best-response 分数)。
7×512 深层网络 + 10× 奖励缩放(–0.05 best-response 分数)。
两组改进均使 exploitability 进一步下降,为 8×10 全尺寸提供可行性证据。
Q5: 有什么可以进一步探索的点?
以下方向可继续推进,按“算法-模型-博弈-评测-应用”五类列出:
算法层面
将 R-NaD 换成后继 MMD 或磁镜下降变体,比较收敛速度与 exploitability 下限。
引入 MCTS/ISMCTS 作为 test-time compute,让 Solly 在每一手实时 rollout,观察对精英人类的额外胜率提升。
研究多策略种群(multi-policy)而非共享策略,用 α-Rank 或 PSRO 循环淘汰,缓解 3+ 人博弈的非均衡陷阱。
模型与表示
手牌抽象网络与端到端 Transformer 并用,学习顺序叫价历史中的高阶相关,看能否在 8×10 大空间自动发现人类总结的“锚定/羊群”偏差模式。
引入对手建模子网络,实时估计对手 digit 分布与 bluff 频率,实现针对性反击。
采用混合专家(MoE)或自适应网络深度,根据当前局复杂度动态增减计算量,降低大尺度训练成本。
博弈规则扩展
实现完整的 Salomon Brothers 规则:8 位数字、10 个面值、4–7 人局、追加“奖金池”与“全押”选项,验证策略网络能否在更嘈杂信号下保持低 exploitability。
研究含合作-背叛成分的“联盟 Liar’s Poker”——允许多人临时结盟分摊盈亏,检验 AI 对合谋与信息泄露的鲁棒性。
引入不完全观察的公开牌(部分数字面朝上),考察 AI 对“部分公共信息+私人信息”融合的处理能力。
评测与理论
运行 10 000+ 局大规模人类在线对抗(公开服务器),收集足够样本以在 95% 置信度下拒绝“零收益”假设,并做贝叶斯胜率估计。
计算近似纳什均衡距离(ε-Nash)而非仅最佳响应,衡量多玩家下的策略安全性。
建立“重叫价值”度量——量化重叫选项对整体 exploitability 与人类可读策略的贡献,回答“该规则是否增加博弈深度”这一理论问题。
LLM 与语言增强
把 Solly 的策略分布作为监督信号,对开源 LLM 进行行为克隆+强化微调,使其学会随机化与 bluff;对比仅用规则文本提示的 baseline。
设计链式思考模板,让 LLM 在每一步显式输出“对手可能手牌分布”“我应 bluff 概率”“重叫 EV”,再采样行动,检验 TTC 增加是否缩小与 Solly 的差距。
做多模态实验:允许 LLM 读取历史对话表情/时延等“人类线索”,评估 AI 利用非完美信息通道的能力及伦理风险。
迁移与实用场景
以 Liar’s Poker 为预训练任务,微调至真实金融竞价(国债一级市场、拍卖),验证“博弈型 AI 能否降低交易桌 Winner’s curse。
将训练框架迁移到其它“全程多人”博弈——如多玩家大老二、Gin-Rummy 变种、或含隐藏轨迹的无人机群对抗——测试通用性。
开源轻量级训练管线(单卡可复现),配套课程学习接口,让高校与初创团队在 24 小时内训练出>45% 胜率的三人 Liar’s Poker 代理,形成社区级基准。
Q6: 总结一下论文的主要内容
主要内容摘要
研究目标
在“多人-不完全信息-全程参与”的扑克变体 Liar’s Poker 上,首次实现并验证超越精英人类的 AI 策略。
游戏特点
3×3 或 5×5 缩小版;每手 3–5 位数字;独有“重叫(rebid)”机制;需持续诈唬与概率推理。
算法
模型无关演员-评论家 R-NaD(Regularized Nash Dynamics),多玩家共享策略网络,纯自博弈、零搜索。
网络规模
2×256 MLP(最大 7×512),单台 Apple Silicon 训练,5–10 M 步收敛。
主要实验
100–100 局 vs 7 位 1980s 华尔街顶级玩家:3×3 二人 48% 胜/−4,5×5二人 55%,3×3 三人 54% 胜/+$17。
1 000 局 vs 条件概率基线:+16 筹码/百局。
1 000 局 vs GPT-4.1 & o3:60% & 55% 胜,LLM 从不重叫。
最佳响应测试:exploitability 随训练降至 0.25 筹码/局。
关键发现
AI 自发高频重叫(33% vs 人类 8%)并随机化,人类难以适应;同等算力下 LLM 因确定性策略被碾压;轻量级网络即可在缩小版达到人类水平并可向 8×10 扩展。
开放方向
引入 test-time 搜索/MCTS、多策略种群、LLM 行为克隆+微调、完整 8×10 规则、金融竞价迁移、社区开源基准。
阅读全文 →
来源:Arxiv2025-11-05 18:58:18 UTC