🔥🔥🔥🔥🔥AI+知识图谱

先规划再检索：基于强化学习的知识图谱复杂推理

#知识图谱问答#多步推理#强化学习#覆盖感知#KGQA

论文原始标题：Plan Then Retrieve: Reinforcement Learning-Guided Complex Reasoning over Knowledge Graphs

论文作者：Authors: Yanlin Song, Ben Liu, Víctor Gutiérrez-Basulto, Zhiwei Hu, Qianqian Xie, Min Peng, Sophia Ananiadou, Jeff Z. Pan

原始摘要：Knowledge Graph Question Answering aims to answer natural language questions by reasoning over structured knowledge graphs. While large language models have advanced KGQA through their strong reasoning capabilities, existing methods continue to struggle to fully exploit both the rich knowledge encoded in KGs and the reasoning capabilities of LLMs, particularly in complex scenarios. They often assume complete KG coverage and lack mechanisms to judge when external information is needed, and their reasoning remains locally myopic, failing to maintain coherent multi-step planning, leading to reasoning failures even when relevant knowledge exists. We propose Graph-RFT, a novel two-stage reinforcement fine-tuning KGQA framework with a 'plan-KGsearch-and-Websearch-during-think' paradigm, that enables LLMs to perform autonomous planning and adaptive retrieval scheduling across KG and web sources under incomplete knowledge conditions. Graph-RFT introduces a chain-of-thought fine-tuning method with a customized plan-retrieval dataset activates structured reasoning and resolves the GRPO cold-start problem. It then introduces a novel plan-retrieval guided reinforcement learning process integrates explicit planning and retrieval actions with a multi-reward design, enabling coverage-aware retrieval scheduling. It employs a Cartesian-inspired planning module to decompose complex questions into ordered subquestions, and logical expression to guide tool invocation for globally consistent multi-step reasoning. This reasoning retrieval process is optimized with a multi-reward combining outcome and retrieval specific signals, enabling the model to learn when and how to combine KG and web retrieval effectively.

翻译标题：先规划再检索：基于强化学习的知识图谱复杂推理

翻译摘要：知识图谱问答旨在通过在结构化知识图谱上推理来回答自然语言问题。虽然大型语言模型通过其强大的推理能力推动了知识图谱问答（KGQA）的发展，但现有方法在复杂场景下仍难以充分利用知识图谱中丰富的知识和大型语言模型的推理能力。它们通常假设知识图谱是完整的，缺乏判断何时需要外部信息的机制，并且其推理仍然局限于局部视角，无法保持连贯的多步规划，即使存在相关知识也会因规划断裂而失败。我们提出 Graph-RFT，这是一个新颖的两阶段强化微调知识图谱问答框架，采用“计划-检索-网络检索”范式，使大型语言模型在知识图谱不完整条件下能够自主规划并跨知识图谱和网络资源进行自适应检索调度。Graph-RFT 引入了链式思维微调方法，通过定制化的计划-检索数据集激活结构化推理并解决 GRPO 冷启动问题。然后引入一种基于计划-检索的强化学习过程，将显式规划和检索动作与多奖励设计相结合，实现覆盖感知的检索调度。它使用一种受笛卡尔启发的规划模块，将复杂问题分解为有序子问题，并用逻辑表达式引导工具调用以实现全局一致的多步推理。这一推理检索过程通过结合结果和检索特定信号的多奖励进行优化，使模型能够学习何时以及如何有效地结合知识图谱和网络检索。

智能问答：

Q1: 这篇论文试图解决什么问题？

该论文针对知识图谱问答（KGQA）在复杂场景下的两大核心缺陷：

缺失覆盖感知机制
现有语义解析（SP）与检索增强（RAG）方法默认知识图谱（KG）完备，无法判断所需事实是否缺失，导致在 KG 不完整时直接失败或生成错误答案。

缺乏全局连贯的多步规划与自适应检索调度
现有方法仅做局部决策，无法维持跨多跳问题的逻辑一致性，常出现“跳步”或“错位”推理，即使 KG 中已有相关知识也会因规划断裂而失败。

为此，论文提出 Graph-RFT：一个两阶段强化微调框架，使大模型在 KG 不完整条件下，能够

自主进行全局规划（将复杂问题分解为有序子问题），
自适应调度 KG 检索与网页搜索，
并通过多奖励强化学习学会“何时、如何”联合利用结构化与非结构化知识，从而提升复杂推理的准确率与鲁棒性。

Q2: 有哪些相关研究？

论文将相关研究划分为两大范式，并指出它们各自在“KG 不完整”与“全局规划”方面的不足。以下按范式归纳代表性工作：

Semantic Parsing（SP）

ChatKBQA：用 LLM 生成逻辑形式再检索实体/关系，依赖 KG 完备。
RGR-KBQA：先检索 KG 事实再微调 LLM 生成 SPARQL，仍假定所需三元组存在。
Rule-KBQA：基于规则库的两阶段逻辑形式生成，未考虑缺失三元组时的补救机制。

Retrieval-Augmented（RAG）

ToG/ToG-R：在 KG 上探索-利用找推理路径，无覆盖判断，缺失边即失败。
PoG：以路径作为检索上下文，仅局部单步决策，缺乏全局计划。
DoG：每步后尝试中间答案，缓解长轨迹误差，但无法主动识别知识缺口。
KG-Agent、SymAgent：引入工具箱或环境交互，仍靠局部启发式，未学习何时调用 Web。
Graph-R1、DynaSearcher：用强化学习优化检索，但奖励仅基于最终答案，未对“何时该用 Web”进行细粒度监督。

以上方法共有的局限：

默认 KG 完备，无机制判断“信息是否足够”；
推理局部短视，无显式多步规划与跨工具调度；
在开放源码小模型上性能骤降，难以迁移。

Graph-RFT 通过“计划-检索”两阶段强化微调，首次将覆盖感知与全局规划联合建模，填补了上述空白。

Q3: 论文如何解决这个问题？

论文提出 Graph-RFT，用“两阶段强化微调”把全局规划与覆盖感知检索统一到一个可学习的推理循环里。核心思路可概括为：

先学会“怎么拆问题、何时查什么”，再用强化学习精修“拆得对不对、查得够不够”。

阶段 1：CoT 监督微调 —— 激活规划与冷启动

构造 4862 条“长 CoT”轨迹：让大模型与 KG+Web 工具交互，记录

⋯
⋯
⋯
⋯

的完整过程。

双阶段过滤：格式、答案、检索、规划四项全对才保留，解决 GRPO 冷启动问题。

监督目标最小化

L_SFT = −∑_{t=1}^T log π_θ(y_t | q, y_
得到初始化策略 π_CoT，具备显式分解与工具调用能力。

阶段 2：计划-检索引导的强化微调 —— 学会“查得准、查得省”

1. 推理模板（Cartesian 分解）

每步动作 s_t 属于 {⟨plan,relation_search,neighbor_search,web_search,answer⟩}。

内用逻辑函数 inter(Ans₁,Ans₂,…) 表达子问题依赖顺序，保证全局一致。

2. 工具调用策略

Relation Search：给定头实体+假设关系，返回 Top-15 真实关系候选，模型局部贪心选择。
Neighbor Search：用选中关系查尾实体；若返回“KG 无信息”，自动触发 Web Search：补全缺失事实，top-k 文档（k=3）送入后续推理。

3. 多奖励设计（GRPO 优化）

整体奖励 R_over = { R_acc, 0.1, -0.1, 0, if R_acc > 0, if R_acc = 0 ∧ (R_graph > 0 ∨ R_web > 0), if “KG 本可答”却走 Web 或“KG 缺失”却未走 Web, otherwise. }

其中 R_acc = max(0.1, r_ans) 用 F1 衡量答案正确性；R_graph = I[{a} ∩ o_graph = a] 评估 KG 检索段是否含答案；R_web 同理评估 Web 段；−0.1 惩罚项迫使模型学会“KG 够用就别偷懒走 Web，KG 缺失必须走 Web”。

4. 训练目标

在 GRPO 框架下最大化 max_π_θ E_{x∼D,y∼π_θ}[r_ϕ(x,y)] − β D_KL(π_θ(y|x;G,R)∥π_ref(y|x;G,R))

检索结果在 loss 计算时被 mask，只更新模型生成的 planning 与 reasoning token，防止对检索内容过拟合。

效果

在 CWQ、WebQSP、GrailQA、SimpleQuestions 的 CKG/IKG-20%~60% 全设置上，7B 模型超 GPT-4 基线。
消融实验显示：去掉 planning、KG 检索奖励或 Web 检索奖励任一模块，性能均显著下降，验证“规划+双检索+惩罚”缺一不可。
模型能按 KG 完整度动态调节 Web 搜索比例（IKG-20% 时约 20%），复杂多跳问题搜索更频繁，实现覆盖感知与效率平衡。

由此，Graph-RFT 用“先计划后检索、奖励引导”的方式，系统性地解决了 KGQA 在知识缺失与多步推理上的双重瓶颈。

Q4: 论文做了哪些实验？

论文围绕 4 个研究问题（RQ1–RQ4）展开系统实验，覆盖 4 个主流 KGQA 数据集 × 2 种 KG 完整度场景，并辅以消融、鲁棒性与错误分析。核心实验一览如下（均使用 Exact Match Hits@1）：

1 主实验（RQ1：与 SOTA 对比）

数据集t类型t完整度t最佳基线（GPT-4）tGraph-RFT-base 7Bt绝对提升
CWQt4-hoptCKGtPoG 76.8t80.7t+3.9
CWQt4-hoptIKG-40%tGoG 60.4t67.2t+6.8
WebQSPt2-hoptCKGtGoG 84.4t90.6t+6.2
WebQSPt2-hoptIKG-40%tGoG 80.3t86.3t+6.0
GrailQAt4-hoptCKGtPoG 79.2t84.6t+5.4
GrailQAt4-hoptIKG-40%tGoG 69.4t73.3t+3.9
SimpleQuestionst1-hoptCKGtPoG 80.2t76.9t已超其余基线
SimpleQuestionst1-hoptIKG-40%tGoG 56.4t62.4t+6.0

结论：7B 模型在所有设置下均超过 GPT-4 基线，IKG 场景优势更显著。

2 消融实验（RQ2：模块贡献）

2.1 Rollout 框架三因子

PS（Planning Steps）
KR（KG Retrieval）
WR（Web Retrieval）

变体tCWQtWebQSPtGrailQAtSimpleQ
PS+KR+WR（完整）t67.2t86.3t73.3t62.4
PS+KRt62.6t83.4t69.1t57.3
KR+WRt55.3t74.2t63.5t61.7
仅 KRt49.4t69.7t58.9t53.8

结论：

多跳任务缺 PS 掉分最多 → 全局规划关键；
单跳任务缺 WR 掉分最多 → 外部文本更关键。

2.2 SFT 与多奖励

变体tCWQtWebQSPtGrailQAtSimpleQ
完整 Graph-RFT-baset67.2t86.3t73.3t62.4
w/o SFT 阶段t46.4t74.2t56.4t54.7
w/o Web 奖励 R_webt66.3t83.5t72.1t60.8
w/o KG 奖励 R_grapht65.8t82.7t71.6t61.6

结论：SFT 带来 >15 分提升；两种检索奖励各贡献 1–2 分，但能显著抑制“KG 可用却走 Web”或反之的无效行为。

3 鲁棒性测试（RQ3：不同缺失率）

构造 IKG-20%/40%/60% 三档，观测性能与 Web 搜索占比。

缺失率tCWQ 得分tWebQSP 得分tWeb 搜索占比
20 %t69.8t88.1t≈ 20 %
40 %t67.2t86.3t≈ 28 %
60 %t61.5t82.7t≈ 37 %

结论：Graph-RFT 随缺失加剧线性增加 Web 调用，性能下降平缓；对比基线 GoG 在 60 % 缺失时掉 10+ 分，Graph-RFT 仅掉 5–6 分，显示更强的覆盖感知与补偿能力。

4 错误分析（RQ4：失败案例归类）

随机抽取 50 条失败轨迹，人工标注五类错误：

错误类型tCWQ 占比tWebQSP 占比t备注
推理错误t38 %t34 %t路径对但答案错，IKG 更易受文档噪声影响
关系选择错t22 %t26 %t头实体→关系映射错，IKG 下更突出
邻居选择错t18 %t20 %t关系对但尾实体挑错
分解错误t16 %t8 %t计划顺序或逻辑函数错，复杂问题更明显
无效动作t6 %t12 %t调用未定义工具，已较少

结论：

推理错误是首要瓶颈，提示需更好的文档去噪与答案对齐；
规划错误随问题复杂度升高而增加，未来可引入更细粒度逻辑模板。

5 补充实验

不同 KG 源：在 Wikidata 上 Graph-RFT 仍领先 ToG 20+ 分，验证方法对图谱来源不敏感。
Case Study：可视化 4-hop 球队问题完整轨迹，展示 plan→KG→Web→inter() 全过程，进一步验证可读性与可解释性。

以上实验从性能、模块、鲁棒、错误四维度系统验证了 Graph-RFT 的有效性与可解释性。

Q5: 有什么可以进一步探索的点？

以下方向可在此基础上继续深入，分为数据与知识源、推理与规划、奖励与训练、系统与评测四大类，供后续研究参考：

1 数据与知识源
跨语种 KGQA：将框架迁移至 Wikidata 多语言子图，考察规划模块对非英语问题的泛化能力。
时序与事件知识：引入 tKG（temporal KG），在 plan 阶段显式建模时间戳与事件顺序，解决“何时”类问题。
多 KG 融合：同时接入 Freebase、Wikidata、领域 KG，让模型学习“选哪个源”或“如何联合置信度”。

2 推理与规划
神经-符号混合规划：用符号求解器（如 Prolog）验证 plan 阶段生成的逻辑表达式，减少分解错误。
可逆或双向推理：当前仅头→尾单向查邻居，可支持“尾→头”反向查询，提升一对多/多对一关系的召回。
数值与比较推理：扩展逻辑函数，支持 max/min/avg 等聚合操作，解决“最高/最多”类数值问题。

3 奖励与训练
细粒度奖励塑形
对“关系选择正确但邻居选错”给予部分奖励，缓解 0/1 稀疏问题。
引入信息增益奖励：衡量新增检索结果对答案分布的 KL 下降，鼓励“有效”而非“更多”检索。
课程强化学习：先在高完整度 KG 上训练，再逐渐降低完整度，让模型平滑过渡到“更依赖 Web”策略。
离线-在线混合：利用离线知识蒸馏把 GPT-4 的 plan 轨迹作为额外监督，再在线 GRPO 微调，降低样本复杂度。

4 系统与评测
在线 KG 更新：识别中的新事实，自动抽取并写入 KG，形成“检索-补全-再推理”闭环。
人机协同纠错：当模型置信度低时，主动请求人工确认关系或实体，持续迭代策略。
新基准与指标
构造对抗性缺失数据集：刻意移除高介数中心三元组，测量最坏情况性能。
引入推理可解释性指标：plan 正确性、工具调用合理性、答案支持度（support set）覆盖率等，超越单一 Hits@1。

5 模型效率与部署
检索缓存与重用：对高频子问题缓存，减少实时图查询延迟。
小模型私有化：把规划模块蒸馏到 3B 以下模型，满足移动端或企业私域部署需求。
多模态延伸：结合图片或表格知识，对“某球队队徽颜色”类问题先检索图像再回图谱验证，实现跨模态规划。

综上，Graph-RFT 在“覆盖感知”与“全局规划”上打开了一个可学习的框架，后续可在知识源扩展、规划深度、奖励细粒度、系统闭环等维度继续深挖，推动 KGQA 向更复杂、更真实场景落地。

Q6: 总结一下论文的主要内容

论文核心速览

背景痛点

现有 KGQA 默认知识图谱完备，无法判断“信息够不够”。
多跳推理缺乏全局规划 → 局部跳步、错位，即使 KG 有答案也会失败。

Graph-RFT 框架

两阶段强化微调，把“先计划再检索”做成可学习策略：

① CoT 监督微调（冷启动）

构造 4.8k 条“plan→KG→Web”长 CoT 轨迹，显式训练分解子问题 + 逻辑函数+查 KG补缺失

目标：激活规划能力、解决 GRPO 冷启动。

② 计划-检索强化微调（精修）

动作空间同上，用 Cartesian 分解 + 逻辑函数保证全局顺序。
多奖励：
– 结果奖励 R_acc：F1 衡量答案正确性
– 检索奖励 R_graph、R_web：是否命中答案
– 惩罚项：KG 本可答却走 Web，或 KG 缺失未走 Web → −0.1

GRPO 优化，检索内容 mask，只更新模型生成部分。

实验结果

数据集t场景tGPT-4 最佳基线tGraph-RFT 7Bt提升
CWQ 4-hoptIKG-40%t60.4t67.2t+6.8
WebQSP 2-hoptIKG-40%t80.3t86.3t+6.0
GrailQA 4-hoptIKG-40%t69.4t73.3t+3.9
消融：去 SFT 掉 15+ 分；去任一检索奖励掉 1–2 分。
鲁棒：KG 缺失率↑ → 自动提高 Web 搜索比例，性能下降更平缓。
错误：推理错误最多（38%），规划错误次之（16%），提示需更细粒度逻辑与文档去噪。

贡献一句话

Graph-RFT 首次把“全局规划”与“覆盖感知检索”统一进强化学习，让 7B 模型在不完备知识图谱上也能稳定超越 GPT-4 基线。

阅读全文 →

来源：Arxiv2025-10-23 16:04:13 UTC

🌟 今日前沿论文 · 2025年10月23日

先规划再检索：基于强化学习的知识图谱复杂推理