AutoRule:基于推理链思维提取规则的奖励机制改进偏好学习
来源: | 作者:DE.Tech | 发布时间: 2025-06-19 | 68 次浏览 | 分享到:

🌟 今日前沿论文 · 2025年6月18日

精选科技前沿资讯,洞察科技研究趋势

🔥🔥🔥🔥🔥 强化学习

AutoRule:基于推理链思维提取规则的奖励机制改进偏好学习

#强化学习 #人类反馈 #规则提取 #偏好对齐 #奖励设计

论文信息

原始标题:AutoRule: Reasoning Chain-of-thought Extracted Rule-based Rewards Improve Preference Learning

作者:Tevin Wang, Chenyan Xiong

主题:Machine Learning, Artificial Intelligence, Computation and Language

摘要

英文摘要

Rule-based rewards offer a promising strategy for improving reinforcement learning from human feedback (RLHF), but current approaches often rely on manual rule engineering. We present AutoRule, a fully automated method for extracting rules from preference feedback and formulating them into rule-based rewards. AutoRule extraction operates in three stages: it leverages a reasoning model to interpret user preferences, identifies candidate rules from the reasoning chain of these interpretations, and synthesizes them into a unified rule set. Leveraging the finalized rule set, we employ language-model verifiers to compute the fraction of rules satisfied by each output, using this metric as an auxiliary reward alongside the learned reward model during policy optimization. Training a Llama-3-8B model with AutoRule results in a 28.6% relative improvement in length-controlled win rate on AlpacaEval2.0, and a 6.1% relative gain in second-turn performance on a held-out MT-Bench subset, compared to a GRPO baseline trained with the same learned reward model but without the rule-based auxiliary reward. Our analysis confirms that the extracted rules exhibit good agreement with dataset preference. We find that AutoRule demonstrates reduced reward hacking compared to a learned reward model when run over two episodes. Finally, our case study suggests that the extracted rules capture unique qualities valued in different datasets. The extracted rules are provided in the appendix, and the code is open-sourced at https://github.com/cxcscmu/AutoRule.

中文摘要

基于规则的奖励为改进强化学习从人类反馈(RLHF)提供了一种有前景的策略,但当前的方法通常依赖于手动规则工程。我们提出了AutoRule,这是一种从偏好反馈中提取规则并将其制定为基于规则的奖励的全自动方法。AutoRule提取分为三个阶段:利用推理模型解释用户偏好,从这些解释的推理链中识别候选规则,并将其合成为统一的规则集。利用最终的规则集,我们使用语言模型验证器计算每个输出满足规则的比例,将此指标作为辅助奖励与学习的奖励模型一起用于策略优化。使用AutoRule训练Llama-3-8B模型在AlpacaEval2.0上的长度控制胜率相对提高了28.6%,在MT-Bench留出子集的第二轮性能上相对提高了6.1%,相比于使用相同学习奖励模型但没有基于规则的辅助奖励的GRPO基线。我们的分析证实,提取的规则与数据集偏好表现出良好的一致性。我们发现,与学习的奖励模型相比,AutoRule在两个训练周期中显示出减少的奖励黑客行为。最后,我们的案例研究表明,提取的规则捕获了不同数据集中看重的独特质量。提取的规则在附录中提供,代码在https://github.com/cxcscmu/AutoRule开源。

关键问答

Q: 这篇论文试图解决什么问题?

这篇论文试图解决在强化学习从人类反馈(Reinforcement Learning from Human Feedback, RLHF)中利用基于规则的奖励(rule-based rewards)来提高语言模型与人类偏好对齐的问题。具体来说,论文的主要目标包括:

  • 自动提取对齐规则:现有的RLHF方法通常依赖于手动设计的规则或大规模的众包标注,这些方法成本高昂且难以扩展。论文提出了一个名为AUTORULE的框架,能够自动从偏好反馈中提取规则,并将这些规则转化为基于规则的奖励,从而避免手动规则工程的复杂性。
  • 提高偏好学习和指令遵循能力:通过将提取的规则整合到强化学习的奖励机制中,论文展示了基于规则的奖励可以提高语言模型在偏好对齐和指令遵循方面的性能,尤其是在复杂任务和多轮对话场景中。
  • 减少奖励黑客行为(reward hacking):在RLHF中,基于学习的奖励模型(learned reward models)常常会因为模型过度优化而出现奖励黑客行为,即模型利用奖励模型的漏洞来获取高奖励,而不是真正提高响应质量。论文通过实验验证了AUTORULE的基于规则的奖励能够有效减少这种奖励黑客行为。
  • 提供可解释和适应数据集的规则:AUTORULE提取的规则不仅能够提高模型性能,还具有可解释性,并且能够适应不同数据集的独特偏好。这使得研究人员能够更好地理解和改进语言模型的对齐机制。

总的来说,论文通过提出AUTORULE框架,旨在提高语言模型在人类偏好对齐和指令遵循方面的性能,同时减少奖励黑客行为,并提供一种自动化的、可解释的规则提取方法。

Q: 论文如何解决这个问题?

论文通过提出一个名为 AUTORULE 的框架来解决强化学习从人类反馈(RLHF)中利用基于规则的奖励(rule-based rewards)来提高语言模型与人类偏好对齐的问题。AUTORULE 的核心思想是自动从偏好反馈中提取规则,并将这些规则转化为基于规则的奖励,从而避免手动规则工程的复杂性。以下是 AUTORULE 框架的主要步骤和方法:

1. 自动规则提取(AUTORULE Extractor)

AUTORULE 的规则提取过程分为三个主要阶段:

1.1 推理生成(Reasoning Generation)
  • 输入:给定一个包含偏好标注的数据集,每个样本包含一个提示和两个模型输出,其中一个是被选择的输出,另一个是被拒绝的输出。
  • 过程:使用一个推理模型生成推理链,解释为什么选择某个输出而不是另一个。
  • 输出:收集所有推理链。
1.2 规则提取(Rule Extraction)
  • 输入:每个推理链。
  • 过程:使用推理模型从每个推理链中提取明确的规则。
  • 输出:将所有提取的规则聚合为一个规则集。
1.3 规则合并(Rule Merging)
  • 输入:聚合后的规则集。
  • 过程:使用推理模型合并规则,去除重复或语义相似的规则。
  • 输出:最终的合并规则集。

2. 基于规则的奖励(AUTORULE Reward)

  • 输入:最终的合并规则集。
  • 过程:使用一个语言模型作为验证器,对每个输出和每个规则进行验证,生成规则分数。规则分数是二进制的,表示规则是否被满足。
  • 输出:基于规则的奖励定义为所有规则满足度的平均值。

3. 强化学习阶段(AUTORULE RL Stage)

  • 输入:基于规则的奖励和标准奖励模型分数。
  • 过程:使用组相对策略优化(GRPO)算法进行强化学习。GRPO 使用相对奖励来计算优势估计,从而提高计算效率。
  • 输出:优化后的策略。
Q: 论文做了哪些实验?

论文通过一系列实验验证了 AUTORULE 框架的有效性和优势。以下是实验的详细内容和结果:

1. 实验设置

1.1 数据集
  • UltraFeedback-Binarized:一个包含近 64K 对模型输出和偏好标注的数据集。训练时选择了一个过滤后的子集,包含 33K 个样本。
  • MT-Bench 人类标注数据集:提供专家对多轮问题的偏好标注,包含 80 个问题,分为 40 个训练集和 40 个测试集。
1.2 评估指标
  • UltraFeedback 测试集胜率(win rate):使用 GPT-4o 作为自动评判器,随机化候选和参考响应的顺序。
  • AlpacaEval 2.0:评估模型在指令遵循方面的性能,报告长度控制胜率(length-controlled win rate)和常规胜率(win rate)。
  • MT-Bench:使用 GPT-4 作为评判器,评估模型在多轮对话中的性能。

2. 实验结果

2.1 规则质量
  • 规则同意率:在 UltraFeedback 测试集上,提取的规则与真实偏好标注的一致性良好,平均同意率超过 70%。在 MT-Bench 数据集上,规则同意率更高,平均超过 80%。
  • 规则分数差异:规则分数差异的分布显示,选择的响应通常获得更高的规则分数,且高分差异与更可靠的偏好对齐相关。
  • 规则确定性:在 UltraFeedback 和 MT-Bench 测试集上,规则的确定性得分分别为 83.6% 和 82.5%,表明规则具有高度一致性。
2.2 模型性能
  • UltraFeedback 测试集胜率:AUTORULE 在 UltraFeedback 测试集上的胜率为 77.2%,比最佳基线方法(GRPO + Length Control)高出 1.7%。
  • AlpacaEval 2.0 性能:在长度控制胜率方面,AUTORULE 达到 77.0%,比 SFT 基线高出 5.9%,比 GPT-4 Turbo 高出 28.6%。在常规胜率方面,AUTORULE 达到 83.3%,表现出色。
  • MT-Bench 性能:在 MT-Bench 的第二轮对话中,AUTORULE 达到 7.83 的平均胜率,比基线方法高出 6.1%。
2.3 奖励黑客行为
  • 训练过程监控:通过监测模型在训练过程中的性能变化,发现基线方法在训练后期出现性能下降,而 AUTORULE 保持稳定的高性能。
  • AlpacaEval 2.0 长度控制胜率:在训练过程中,AUTORULE 在 AlpacaEval 2.0 的长度控制胜率上始终优于基线方法,显示出对奖励黑客行为的有效抑制。
2.4 消融研究
  • 奖励缩放和简洁性约束:移除奖励缩放或简洁性约束会导致模型性能下降,表明这些组件在 AUTORULE 框架中的重要性。
注:数据公开发布,版权出版方所有,不构成任何投资建议
返回