🔥🔥🔥🔥🔥多智能体演化

多智能体共进化：通过协同演化提升大模型能力

#多智能体共进化#自监督训练#大模型优化#强化学习#无监督学习

论文原始标题：Multi-Agent Evolve: LLM Self-Improve through Co-evolution

论文作者：Authors: Yixing Chen, Yiding Wang, Siqi Zhu, Haofei Yu, Tao Feng, Muhan Zhan, Mostofa Patwary, Jiaxuan You

原始摘要：Reinforcement Learning (RL) has demonstrated significant potential in enhancing the reasoning capabilities of large language models (LLMs). However, the success of RL for LLMs heavily relies on human-curated datasets and verifiable rewards, which limit their scalability and generality. Recent Self-Play RL methods, inspired by the success of the paradigm in games and Go, aim to enhance LLM reasoning capabilities without human-annotated data. However, their methods primarily depend on a grounded environment for feedback (e.g., a Python interpreter or a game engine); extending them to general domains remains challenging. To address these challenges, we propose Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in solving diverse tasks, including mathematics, reasoning, and general knowledge Q&A. The core design of MAE is based on a triplet of interacting agents (Proposer, Solver, Judge) that are instantiated from a single LLM, and applies reinforcement learning to optimize their behaviors. The Proposer generates questions, the Solver attempts solutions, and the Judge evaluates both while co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves an average improvement of 4.54% on multiple benchmarks. These results highlight MAE as a scalable, data-efficient method for enhancing the general reasoning abilities of LLMs with minimal reliance on human-curated supervision.

翻译标题：多智能体共进化：通过协同演化提升大模型能力

翻译摘要：强化学习（RL）在增强大型语言模型（LLMs）的推理能力方面展现出巨大潜力。然而，LLM 的 RL 成功高度依赖人工标注的数据集和可验证的奖励，这限制了其可扩展性和通用性。受游戏和围棋中该范式的启发，最近的自对弈 RL 方法旨在在不依赖人工标注数据的情况下提升 LLM 的推理能力。然而，这些方法主要依赖于反馈环境（如 Python 解释器或游戏引擎），扩展到通用领域仍具挑战。为了解决这些问题，我们提出了 Multi-Agent Evolve（MAE），这是一个框架，使 LLM 能够在解决多种任务（包括数学、推理和常识问答）中自我进化。MAE 的核心设计基于三个相互作用的智能体（命题者、解答者、裁判）从单一 LLM 中实例化，并应用强化学习优化其行为。命题者生成问题，解答者尝试解答，裁判评估两者并共同进化。在 Qwen2.5-3B-Instruct 上的实验表明，MAE 在多个基准上平均提升了 4.54%。这些结果表明，MAE 是一种可扩展、数据高效的 LLM 通用推理能力增强方法，仅需少量人工标注监督。

论文导览：

智能问答：

Q1: 这篇论文试图解决什么问题？

论文旨在回答一个核心研究问题：
能否在无需人工标注、也不依赖可验证环境（如 Python 解释器或游戏引擎）的前提下，为大型语言模型（LLM）构建一套有效的强化学习（RL）自提升框架，使其在通用领域（数学、推理、常识问答等）上持续进化？

为此，作者提出 Multi-Agent Evolve（MAE），通过“命题者–解答者–裁判”三元组的多智能体协同与对抗，完全利用模型自身信号完成训练，摆脱对人工 curated 数据或可验证奖励的依赖，实现数据高效、可扩展的通用推理能力自提升。

Q2: 有哪些相关研究？

相关研究可归纳为三条主线，均围绕“如何让大模型在缺乏人工标注的情况下自我提升”展开：

LLM-as-a-Judge

核心思想：用同一个大模型充当裁判，为生成内容打分或排序，替代昂贵人工标注。
代表工作：
– Gu et al., 2024 综述了“LLM-as-a-judge”在评估、对齐、检索等场景的应用。
– Yuan et al., 2025 提出 Self-Rewarding Language Models，让模型自评分数并迭代优化指令遵循能力。
– Pang et al., 2023 通过“师生”自博弈，用自评信号提升推理准确率。

Self-Play for LLM

核心思想：双智能体零和博弈，无需外部数据即可生成训练信号。
代表工作：
– Absolute Zero（Zhao et al., 2025）在代码、数学任务中利用 Python 解释器提供可验证奖励，实现零数据 RL。
– SPIRAL（Liu et al., 2025a）在零和博弈框架下进行多轮对抗，激励推理能力。
– Self-RedTeam（Liu et al., 2025b）用攻击-防守博弈提升模型安全性。
与 MAE 的区别：上述方法依赖可验证环境或严格零和设定，难以泛化到通用开放领域。

Multi-Agent LLM 系统

核心思想：将大模型实例化为多个专用智能体，通过协作或竞争完成复杂任务。
代表工作：
– AgentVerse（Chen et al., 2023）探索多智能体协作涌现行为，但未对模型参数进行训练。
– MALT（Motwani et al., 2025）引入投票机制对多智能体进行训练，提升推理能力。
– AutoDefense（Zeng et al., 2024）用多智能体攻防对抗抵御越狱攻击。
与 MAE 的区别：多数工作仅把多智能体当作推理阶段工具，未形成“生成–解答–评判”闭环的自进化训练框架。

综上，MAE 在以下方面实现突破：
把“LLM-as-a-Judge”从静态评估工具升级为可训练的智能体，与命题者、解答者同步更新；
把“Self-Play”从零和、可验证环境扩展到通用领域，引入非零和、多角色协同的共进化机制；
把“Multi-Agent LLM”从推理阶段协作推进到训练阶段强化学习，实现完全无人工标注的自提升循环。

Q3: 论文如何解决这个问题？

论文提出 Multi-Agent Evolve（MAE）框架，将“命题–求解–评判”全流程封装为可训练的多智能体闭环，用自身生成的通用域奖励信号替代人工标注与可验证环境，具体解法分为四步：

三元角色协同

同一基座 LLM 被实例化为三个互斥又互补的策略网络：

Proposer：生成问题，目标为“高质量+高挑战”。
Solver：给出答案，目标为“正确且格式合规”。
Judge：充当可训练的生成式奖励模型，输出 1–10 分，无需外部真值。

域无关奖励设计

每个角色的损失函数仅依赖 Judge 的分数与可解析性，彻底摆脱外部标注：

Proposer 总奖励 R_P = 1/3 R_quality + 1/3 (1 - R_S(q)) + 1/3 R_format 其中 R_S(q) 为 Solver 在 q 上的平均得分，难度越高 Proposer 越受益。
Solver 总奖励 R_S = 0.5 V_J(a,q) + 0.5 R_format
Judge 总奖励 R_J = R_format 仅鼓励输出可解析的X，保证训练信号稳定。

质量过滤与格式约束

每次生成的题目需经 Judge 评估，质量分≥0.7 才进入题库，防止“垃圾进-垃圾出”。
对三方输出均施加格式奖励，确保…、…、X唯一且可提取，避免解析失败导致训练崩溃。

同步共进化训练

采用 Task-Relative REINFORCE++：

为每个角色单独估计优势 A_norm_role = (r - μ_role)/σ_role，降低方差。
每步收集三元组经验后，一次性同步更新共享骨干参数，使命题难度与解答能力始终匹配，形成“越来越难–越解越强”的飞轮。

通过上述设计，MAE 在零人工标注、零可验证环境的条件下，仅用 16 条自生成种子题目即可启动，在 250 步内持续自我进化，平均提升 4.54%，显著优于 AZR 与 SFT 基线。

Q4: 论文做了哪些实验？

论文在 Qwen2.5-3B-Instruct 基座上系统验证了 MAE 的有效性、稳定性与可扩展性，实验分四大组：

零种子 vs 有种子对比

MAE(zero)：仅 16 条自生成题目启动，无任何真实数据。
MAE(no reference)：967 条真实题目做初始题库，后续全自生成。
MAE(half reference)：50% 概率参考真实题、50% 自生成。
MAE(with reference)：100% 基于真实题改写。
对照基线：Base、AZR（同样零数据）、SFT（用 967 题+真值微调）。

覆盖 26 个基准
数学：GSM8K、MATH、AMC、Minerva、Olympiad
代码：HumanEval+、MBPP+
常识推理：ARC-c、MMLU、CQA、OBQA、BoolQ、HellaSwag
阅读理解：SQuAD、NaturalQuestions、TriviaQA
分布外：TruthfulQA、BBH、LiveBench、Winogrande、MMLU-Pro 等
指标：统一用强 LLM-as-a-judge 提取与真值比对，输出 TRUE/FALSE 计算准确率。

训练过程诊断

题库规模曲线：验证质量过滤后有效题目持续净增，未出现崩塌。
难度曲线：Proposer 生成的题目平均 solve-score 稳定在 0.4–0.6，符合“desirable difficulty”。
整体准确率：随训练步单调上升，250 步后仍无过拟合或平台迹象。

消融与鲁棒

角色消融：分别冻结 Proposer/Solver/Judge 训练，性能下降 1.97–2.63%，证明三角共生缺一不可。
机制消融：
– 去掉质量过滤 → 低质量题目污染题库，Overall 掉 3.72%。
– 去掉格式奖励 → 解析失败率升高，但质量过滤部分代偿，Overall 仅掉 0.43%。
– 二者同时移除 → 训练 50 步后即出现标签错乱，无法持续。

主要结果一览（Overall 平均准确率）

零数据赛道：Base 55.33 → AZR 57.72 → MAE(zero) 58.51
有数据赛道：SFT 53.87 → MAE(with ref) 57.11 → MAE(half ref) 59.87（最佳）

实验结论：MAE 在完全无人工标注、无可验证环境的条件下仍能稳定提升，且随参考题目引入增益进一步放大，验证了多角色共进化与自奖励机制在通用领域的可扩展性。

Q5: 有什么可以进一步探索的点？

以下方向可进一步拓展 MAE 的边界与深度：

规模与模型维度

将框架迁移至 7B、30B、70B 乃至 MoE 结构，观察多角色共进化是否随规模出现突现能力或收敛速度质变。
研究参数高效微调（QLoRA、GaLore）对三角色同步更新的影响，降低大模型训练成本。

角色与拓扑扩展

引入“Reflector”角色对 Judge 的评分进行元反思，形成双层级裁判，减少评分偏差。
让多个 Proposer/Solver 种群并行演化，采用 Elo 或联赛机制定期淘汰，提升探索多样性。
将拓扑从线性“命题–求解–评判”扩展为图结构，支持多轮辩论或协作式证明。

奖励设计与可验证环境融合

对数学、代码子集接入 Python、Lean4 等可验证器，构建“混合奖励”：可验证题用符号奖励，开放题用 Judge 奖励，实现统一平台。
引入基于不确定性的自适应权重 λ_verify(t)，动态调节可验证信号与 Judge 信号的比例。

多模态与长程任务

把命题空间扩展至图文混合（几何题、图表推理），验证 Judge 是否能跨模态给出稳定分数。
生成长程规划任务（24 点、迷宫、Minecraft 目标），检验框架在稀疏奖励环境下的稳定性。

理论分析

证明/证伪三角色协同是否收敛至某种“广义纳什均衡”，并给出收敛速率与超参数的关系。
研究难度奖励 1−R_S(q) 的上界，防止 Proposer 生成不可解问题导致训练崩溃。

安全与对齐

在 Red-Team 场景下增加“攻击者”角色，与 Defender、Judge 形成三方博弈，检验框架能否在对抗中提升安全性。
引入宪法约束或人类偏好正则项，确保进化过程中不出现误导性、偏见性题目。

数据与评测

构建“MAE-Elo”排行榜：不同基座模型用同一协议自进化，公平比较自提升潜力。
开源进化题库与 Judge 打分语料，供社区研究自生成数据的质量、偏差与可迁移性。

系统与工程优化

设计异步流水线，让 Proposer、Solver、Judge 在不同设备并行，提升经验产出效率。
探索梯度压缩、局部更新等分布式策略，支持千亿级模型在无人工标注场景下的持续预训练。

Q6: 总结一下论文的主要内容

Multi-Agent Evolve (MAE) 提出一种无需人工标注、无需可验证环境的强化学习框架，让大模型通过“自命题–自解答–自评判”三元角色协同实现通用域自我进化。核心贡献与结果如下：

框架

同一基座 LLM 同时扮演 Proposer（出题）、Solver（答题）、Judge（打分），形成闭环。
采用 Task-Relative REINFORCE++ 对三角色同步更新，仅用 Judge 的 1–10 分信号与格式奖励驱动训练，彻底摆脱外部真值。

奖励机制

Proposer：质量分 + 难度分（1 − Solver 平均分）+ 格式分，鼓励“高质量且具挑战”的题目。
Solver：Judge 打分 + 格式分，鼓励“正确且易解析”的答案。
Judge：仅受格式奖励约束，保证X可提取，维持训练稳定。

质量过滤

题目需获 Judge ≥0.7 才被收入题库，防止低质或不可解数据污染。

实验

在 Qwen2.5-3B-Instruct 上，零数据启动（16 条自生成种子）即把 Overall 准确率从 55.33→58.51，超越 AZR。
加入 967 条无真值参考题后，MAE(half reference) 进一步提升至 59.87%，显著优于 SFT（53.87%）。
覆盖 26 个基准（数学、代码、常识、阅读、OOD），普遍增益；250 步训练曲线稳定，题库规模与题目难度同步增长。

消融

冻结任一角色或移除质量过滤，性能下降 1.97–3.72%，验证三角共生与数据自净的必要性。

综上，MAE 首次在通用领域实现完全自驱动的多智能体共进化，为“无标注、无验证器”场景下的 LLM 自提升提供了可扩展范式。

阅读全文 →

来源：Arxiv2025-10-27 17:58:02 UTC

🌟 今日前沿论文 · 2025年10月27日

多智能体共进化：通过协同演化提升大模型能力