重新审视大型语言模型的组合泛化能力:考虑指令遵循能力
论文信息
原始标题:Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability
作者:Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe
主题:Computation and Language, Artificial Intelligence
摘要
英文摘要
In generative commonsense reasoning tasks such as CommonGen, generative large language models (LLMs) compose sentences that include all given concepts. However, when focusing on instruction-following capabilities, if a prompt specifies a concept order, LLMs must generate sentences that adhere to the specified order. To address this, we propose Ordered CommonGen, a benchmark designed to evaluate the compositional generalization and instruction-following abilities of LLMs. This benchmark measures ordered coverage to assess whether concepts are generated in the specified order, enabling a simultaneous evaluation of both abilities. We conducted a comprehensive analysis using 36 LLMs and found that, while LLMs generally understand the intent of instructions, biases toward specific concept order patterns often lead to low-diversity outputs or identical results even when the concept order is altered. Moreover, even the most instruction-compliant LLM achieved only about 75% ordered coverage, highlighting the need for improvements in both instruction-following and compositional generalization capabilities.
中文摘要
在生成性常识推理任务(如CommonGen)中,生成性大型语言模型(LLMs)需要组合包含所有给定概念的句子。然而,当关注指令遵循能力时,如果提示指定了概念顺序,LLMs必须生成符合指定顺序的句子。为了解决这个问题,我们提出了Ordered CommonGen,这是一个旨在评估LLMs组合泛化和指令遵循能力的基准测试。该基准通过测量有序覆盖来评估概念是否按指定顺序生成,从而能够同时评估这两种能力。我们使用36个LLMs进行了全面分析,发现虽然LLMs普遍理解指令的意图,但对特定概念顺序模式的偏见往往导致输出多样性低或即使概念顺序发生变化也产生相同结果。此外,即使是最符合指令的LLM也只实现了约75%的有序覆盖率,突出了在指令遵循和组合泛化能力方面都需要改进。
关键问答
这篇论文试图解决的问题是评估大型语言模型(LLMs)在遵循指令和组合泛化(compositional generalization)方面的能力。具体来说,它关注的是在生成性常识推理(Generative Commonsense Reasoning, GCR)任务中,LLMs是否能够按照指定的顺序组合给定的概念来生成句子。
传统的GCR任务,如CommonGen,主要评估模型是否能够将所有给定的概念包含在生成的句子中,但不考虑概念的顺序。然而,当指令明确要求按照特定顺序排列概念时,LLMs需要能够生成符合这一要求的句子。论文通过提出一个新的基准框架Ordered CommonGen来评估LLMs在这种情况下表现如何,并分析了LLMs在遵循指令和组合泛化方面的能力和限制。
为了解决评估大型语言模型(LLMs)在遵循指令和组合泛化方面的能力问题,论文提出了一个名为Ordered CommonGen的新基准框架。该框架通过以下方式解决这一问题:
1. 任务定义
- 输入与输出:输入是一个包含四个概念的集合X={c₁,c₂,...,cₖ},每个概念是一个常见的名词或动词。任务要求LLMs生成一个句子Y,使得所有概念都包含在内,并且必须按照指定的顺序出现。
- 评估维度:除了传统的概念覆盖(Concepts Coverage)评估外,Ordered CommonGen还引入了"有序覆盖"(Ordered Coverage)评估,即检查生成的句子是否按照指定的顺序包含所有概念。
2. 数据集构建
- 概念集生成:使用CommonGen-lite数据集中的192个种子概念集,每个概念集包含四个概念。通过生成每个概念集的所有排列(4! = 24),共得到4,608个概念集。
- 指令模板:从FLAN中选取6个针对CommonGen任务的指令模板,并在每个模板中插入"in the specified order"(按指定顺序)这一短语,以明确指示LLMs按照指定顺序生成句子。
3. 评估指标
- 概念覆盖:
- Coverage w/o order:计算生成句子中包含的输入概念的平均百分比,不考虑概念的顺序。
- Coverage w/ order:计算生成句子中按照指定顺序包含所有输入概念的平均百分比。
- Ordered Rate:计算生成句子中完全符合指定顺序的句子的平均百分比。
- 句子相似度:
- Pairwise-BLEU (pBLEU):通过计算同一概念集不同排列生成的句子之间的BLEU分数,评估生成句子的多样性。
- Pairwise-BLEURT (pBLEURT):通过计算同一概念集不同排列生成的句子之间的BLEURT分数,评估生成句子的语义相似度。
- 语料库多样性:
- Distinct-2:计算所有生成句子中独特2-gram的比例。
- Diverse Rate:计算所有生成句子中独特句子的比例。
- 困惑度:使用GPT2-XL模型计算生成句子的困惑度,评估句子的自然性和质量。
论文中进行了以下实验和分析,以评估大型语言模型(LLMs)在遵循指令和组合泛化方面的能力:
1. 基准测试实验
- 数据集构建:使用CommonGen-lite数据集中的192个种子概念集,每个概念集包含四个概念。通过生成每个概念集的所有排列(4! = 24),共得到4,608个概念集。
- 指令模板:从FLAN中选取6个针对CommonGen任务的指令模板,并在每个模板中插入"in the specified order"这一短语,以明确指示LLMs按照指定顺序生成句子。
- 模型选择:选择了36个知名的指令调优LLMs进行评估,包括Llama、Qwen、Gemma、Phi、Mistral、Mixtral、Gemini、GPT-3.5和GPT-4o等。
2. 零样本设置评估
- 实验设置:在零样本(zero-shot)设置下进行评估,以突出模型的归纳推理能力。比较了使用"in the specified order"和不使用该短语的指令模板的效果。
- 结果分析:
- LLMs理解指令意图:通过指定概念顺序,大多数LLMs的有序覆盖(w/ order)和有序率(Ordered Rate)显著提高,表明它们能够理解并遵循指令。
- 生成自然句子:尽管指定顺序会略微增加困惑度,但大多数LLMs仍然能够生成自然的句子。
- 遵循指令的挑战:即使表现最好的模型(如Llama3.1-405B)也只有约75%的句子完全符合指定顺序,表明LLMs在精确遵循指令方面仍有提升空间。
- 多样性提升:考虑概念顺序时,LLMs生成的句子多样性增加,但有时会生成相同的句子,即使概念顺序改变。
3. 词性模式分析
- 实验目的:分析不同词性模式(如NNNN、NNNV、NNVN等)对LLMs性能的影响。
- 结果分析:
- 全名词模式(NNNN):概念覆盖最高,表明名词组合对LLMs来说相对容易。
- 全动词模式(VVVV):概念覆盖最低,但有序率和多样性最高,表明动词组合对LLMs来说最具挑战性。
- 其他模式:不同词性组合对LLMs的性能有不同的影响,表明LLMs在处理不同词性组合时存在不同的挑战。
4. 提示模板变化的影响
- 实验目的:评估不同提示模板对LLMs性能的影响。
- 结果分析:
- 明确指定"in the specified order":通常能提高LLMs的有序覆盖,但不同模板之间的表现差异仍然存在。
- 模板选择的重要性:不同模板对不同模型的影响不同,表明提示模板的选择对LLMs的性能有显著影响。
5. 单次示例引导实验
- 实验目的:通过使用单次示例(one-shot example)来引导LLMs生成符合指定顺序的句子,评估这种方法的效果。
- 实验设置:使用一个固定的示例句子,如"My favorite words are apple, place, tree, and pick",来引导LLMs生成符合指定顺序的句子。
- 结果分析:
- 有序率提升:某些模型(如Llama3.3-70B和Llama3.1-405B)的有序率显著提高。
- 多样性降低:生成句子的多样性显著降低,表明单次示例引导会使模型生成更单调的输出。
- 自然性影响:尽管有序率提高,但生成的句子有时会偏离示例模式,表明LLMs仍然受到训练数据中模式的影响。
论文提出了Ordered CommonGen框架来评估LLMs在遵循指令和组合泛化方面的能力,并揭示了LLMs在这些任务中的表现和局限性。基于这些发现,以下是一些可以进一步探索的点:
1. 改进训练方法
- 增强指令遵循能力:研究新的训练技术,如更复杂的指令微调方法或人类偏好微调,以提高LLMs在遵循指令方面的表现。
- 组合泛化能力的提升:探索新的训练策略,如元学习(meta-learning)或少样本学习(few-shot learning),以增强LLMs的组合泛化能力。
2. 多语言扩展
- 其他语言的评估:将Ordered CommonGen框架扩展到其他语言,评估LLMs在不同语言中的表现,以了解语言结构和文化差异对模型性能的影响。
- 跨语言迁移学习:研究如何将从一种语言中学到的组合泛化能力迁移到其他语言,以提高多语言LLMs的性能。
3. 更复杂的任务设置
- 增加概念数量:扩展到包含更多概念的任务,以评估LLMs在处理更复杂组合时的能力。
- 引入更多约束条件:在任务中加入更多约束条件,如语义角色标注、情感倾向等,以更全面地评估LLMs的生成能力。
4. 评估方法的改进
- 人类评估:引入人类评估来补充自动评估指标,以更准确地评估生成句子的质量和自然性。
- 参考依赖指标:尽管论文中没有使用参考依赖指标,但可以探索如何结合这些指标来更全面地评估模型性能。
- 动态评估:开发动态评估方法,实时调整评估标准以适应模型的生成行为。