从被动到主动:基于动态任务编排的智能医疗预问诊多智能体系统
论文原始标题:From Passive to Proactive: A Multi-Agent System with Dynamic Task Orchestration for Intelligent Medical Pre-Consultation
论文作者:Authors: ChengZhang Yu, YingRu He, Hongyan Cheng, nuo Cheng, Zhixing Liu, Dongxu Mu, Zhangrui Shen, Zhanpeng Jin
原始摘要:Global healthcare systems face critical challenges from increasing patient volumes and limited consultation times, with primary care visits averaging under 5 minutes in many countries. While pre-consultation processes encompassing triage and structured history-taking offer potential solutions, they remain limited by passive interaction paradigms and context management challenges in existing AI systems. This study introduces a hierarchical multi-agent framework that transforms passive medical AI systems into proactive inquiry agents through autonomous task orchestration. We developed an eight-agent architecture with centralized control mechanisms that decomposes pre-consultation into four primary tasks: Triage (T1), History of Present Illness collection (T2), Past History collection (T3), and Chief Complaint generation (T4), with T1--T3 further divided into 13 domain-specific subtasks. Evaluated on 1,372 validated electronic health records from a Chinese medical platform across multiple foundation models (GPT-OSS 20B, Qwen3-8B, Phi4-14B), the framework achieved 87.0% accuracy for primary department triage and 80.5% for secondary department classification, with task completion rates reaching 98.2% using agent-driven scheduling versus 93.1% with sequential processing. Clinical quality scores from 18 physicians averaged 4.56 for Chief Complaints, 4.48 for History of Present Illness, and 4.69 for Past History on a 5-point scale, with consultations completed within 12.7 rounds for T2 and 16.9 rounds for T3. The model-agnostic architecture maintained high performance across different foundation models while preserving data privacy through local deployment, demonstrating the potential for autonomous AI systems to enhance pre-consultation efficiency and quality in clinical settings.
翻译标题:从被动到主动:基于动态任务编排的智能医疗预问诊多智能体系统
翻译摘要:全球医疗系统面临患者数量增加与咨询时间有限的挑战,许多国家的初级护理访问时间平均低于 5 分钟。虽然包括分诊和结构化病史采集的预问诊流程提供了潜在的解决方案,但现有的 AI 系统仍受限于被动交互范式和上下文管理挑战。本研究引入了一种分层多智能体框架,通过自主任务编排将被动医疗 AI 系统转化为主动询问代理。我们开发了一个八智能体架构,具有集中控制机制,将预问诊分解为四个主要任务:分诊(T1)、现病史采集(T2)、既往史采集(T3)和主诉生成(T4),其中 T1-T3 进一步细分为 13 个领域特定子任务。在来自中国医疗平台的 1,372 份经验证的电子健康记录上,对多个基础模型(GPT-OSS 20B、Qwen3-8B、Phi4-14B)进行了评估,框架在初级科室分诊中达到了 87.0% 的准确率,在次级科室分类中达到了 80.5%,使用智能体驱动调度的任务完成率达到 98.2%,而顺序处理仅为 93.1%。18 位医生对主诉、现病史和既往史的临床质量评分平均分别为 4.56、4.48 和 4.69(满分 5 分),预问诊在 T2 上完成 12.7 轮,在 T3 上完成 16.9 轮。该模型无关架构在不同基础模型上保持了高性能,同时通过本地部署保护数据隐私,展示了自主 AI 系统在临床环境中提升预问诊效率和质量的潜力。

智能问答:
Q1: 这篇论文试图解决什么问题?
论文针对全球门诊“5 分钟困局”——医生无暇完成高质量问诊——提出将“被动式”AI 预问诊系统升级为“主动式”多智能体框架。核心待解决问题可归纳为:
被动交互:现有系统仅响应患者输入,缺乏医生主导的持续追问能力,导致信息收集零散。
长对话退化:多轮对话中上下文窗口“中段丢失”可致性能下降 39%,难以完成 10–20 轮的完整病史采集。
全局失衡:无分层调度机制,系统要么过度追问细节,要么按固定流程“走过场”,难以在“宏观诊断路径”与“微观症状细节”间动态平衡。
为此,作者构建层级式八智能体架构,通过自主任务编排实现:
动态子任务完成度评估(13 个医学域)
自适应提示生成
优先级驱动的分层任务管理
将传统“被动应答”转化为“主动追问”,在 1 372 份真实电子病历上验证,显著提升了分诊准确率与病史完整性。
Q2: 有哪些相关研究?
论文在第 2 节“Related Work”中系统梳理了两条主线:
通用多智能体框架的演进
预问诊(pre-consultation)场景下的专用系统
相关研究按时间轴与贡献点可归纳如下:
早期规则/模板系统
Bickmore et al. 2015 —— 基于对话树的虚拟护士,首次实现自动采集患者基本信息,但无自适应能力。
检索增强与强化学习阶段
Lewis et al. 2021 —— 引入检索机制,将患者既往记录动态拼接到提示中,提升上下文相关性。
Wang & Wong 2021 —— 用多智能体强化学习把问诊动作分解为子任务,初步验证“分治”策略的可行性。
大模型时代:角色扮演与任务分解
Tang et al. 2024 (MedAgents) —— 让 LLM 扮演不同科室医生进行零样本推理,强调“多角色会诊”而非流程调度。
Prasad et al. 2023 (ADAPT) —— 提出“按需分解”机制,模型在对话中即时决定下一步问什么,但缺乏全局协调层。
Wang et al. 2024 (TDAG) —— 动态生成子智能体并分配优先级,首次把“任务分解+动态代理生成”引入医疗,但仍为被动响应模式。
Wang et al. 2025 (ConsultationFlow) —— 模块化多代理,支持症状-检查-诊断流水线,然而按固定顺序执行,无法根据患者回答实时重排问诊路径。
层级多智能体与编排机制
MegaAgent 2025 —— 去中心化、无预设 SOP 的大规模多代理系统,验证了“无剧本”协作的可扩展性,但未针对医疗安全与语义一致性做约束。
Laban et al. 2025 —— 首次量化 LLM 在多轮对话中的“中段丢失”现象,为本文的“动态完成度评估”提供理论依据。
上述工作共同表明:
多代理在医疗问诊中具有高潜力,但现有系统普遍“被动、无全局调度、长对话易失效”。
本文首次把“主动追问 + 层级编排 + 长对话上下文保持”形式化到预问诊场景,填补了这一空白。
Q3: 论文如何解决这个问题?
论文将“被动式”预问诊转化为“主动式”多智能体系统,核心思路是**“把问诊流程形式化为分层有限状态机,再由中央控制器实时评估状态、动态调度专用代理”**。具体实现分三步:
任务形式化与分层拆解
把完整预问诊 T 拆成 4 个主任务:
T={T1, T2, T3, T4}
T1:分诊(再细分为 2 子任务)
T2:现病史采集(6 子任务)
T3:既往史采集(5 子任务)
T4:主诉生成(不可再分,靠累积上下文一次性提炼)
共 13 个可评估子任务,形成“宏观→微观”两层搜索空间。
中央控制器 + 三阶段闭环
每轮对话执行:
① Monitor 评估
对 13 子任务分别计算临床语义有效性与完整性得分 S(tij)∈[0,1];若 S(tij)≥0.85 则标记完成,从待办集合 TP 中剔除:
T_{k+1}^P = {tij | S(tij) < 0.85, tij ∈ T_k^P}
② Controller 调度
在剩余 TP 内按“科室优先级→症状复杂度→信息缺口”加权得分选择最高分任务 TC:
T_C^k = arg max_{t ∈ T_P^k} Priority(t)
③ Prompter→Inquirer 生成追问
Prompter 将 TC 转化为带医学约束的提示;Inquirer 结合已累积的 HPI/PH/CC 生成下一轮问题,实现“医生式”定向追问。
长对话与模型无关保障
本地部署,所有代理共享同一份增量病历,避免上下文窗口“中段丢失”
零样本即可在 GPT-OSS 20B、Qwen3-8B、Phi4-14B 上稳定完成 30 轮以内对话,任务完成率 98.2%,显著优于顺序基线 93.1%。
通过上述“分层状态评估 + 动态优先级选择 + 上下文一致更新”机制,系统由被动应答转为主动引导,在 1 372 例真实病历上实现:
初级分诊准确率 87.0%,次级 80.5%
临床质量评分 4.25–4.69/5.0
平均 12.7 轮完成现病史、16.9 轮完成既往史,达到可部署水平。
Q4: 论文做了哪些实验?
论文在 1 372 份经双人医师复核的中文电子病历上,围绕 “分诊准确性、任务完成率、生成质量、调度策略、模型通用性、真实临床可用性” 六个维度展开系统实验。关键实验与结果如下:
分诊迭代实验
指标:primary / secondary 科室准确率
结果:4 轮迭代后 primary 从 83.0 % → 87.0 %,secondary 从 75.4 % → 80.5 %;眼科最高 94.8 %,精神科最低 65.2 %。
零-shot 跨模型稳健性
基座:GPT-OSS 20B、Qwen3-8B、Phi4-14B,均无医疗微调。
指标:任务未完成率、平均对话轮数、7 维质量评分。
结果:
– 未完成样本:GPT-OSS 最低,仅为 Phi4 的 8.08 %。
– 平均轮数:T₂ 12.7 轮、T₃ 16.9 轮,各模型差距 < 1.5 轮。
– 临床相似度 CCS/HPIS/PHS 均 ≥ 3.74/5.0,模型间无显著差异(p > 0.05)。
调度策略对比
对照:Medical Priority(固定临床优先级)vs Agent Driven(本文动态调度)
指标:13 子任务完成率、6 维质量得分。
结果:
– 完成率:Agent Driven 98.2 %,固定顺序 93.1 %,提升 5.1 pp。
– 质量分:Agent Driven 在 IC、OP、PHS、HPIS 上显著领先(Δ 0.2–0.35/5.0)。
真实世界医师盲评
样本:随机 40 例,每例抽 5 轮对话,18 名执业医师双盲评分。
指标:CC、HPI、PH 临床可用性 1–5 分。
结果:
– 平均分 CC 4.56、HPI 4.48、PH 4.69;
– 组内相关系数 ICC > 0.81,一致性良好。
对话轮次上限敏感性
设置 30 轮硬截断,统计失败案例分布。
结果:Agent Driven 失败率 1.8 %,主要集中于多系统慢性病史(T₃)场景,验证阈值合理。
消融:上下文窗口影响
对比“完整增量病历”与“仅保留最近 5 轮”两种输入。
结果:后者 HPIS 下降 11.4 %,PHS 下降 9.7 %,证实长对话记忆机制的必要性。
综上,实验链条覆盖 算法-模型-策略-临床 四层面,结果一致表明:层级多智能体动态编排可在不泄露隐私、不做医疗微调的前提下,显著提升预问诊的准确率与临床可用性。
Q5: 有什么可以进一步探索的点?
以下方向可在此基础上继续深入,分为 方法层、数据层、临床层、系统层 四类,均保持与原文设定一致(本地部署、零样本、隐私优先):
方法层
可解释子任务评分
当前 Monitor 的 S(tij) 为黑盒,可引入 ** medically-aware probing** 显式输出缺失的临床实体(ICD-10、SNOMED CT),让医生一键核对为何某子任务未达标。
不确定性驱动的追问策略
在 Controller 的优先级函数中加入 预测熵 或 Monte-Carlo dropout 方差,对高不确定性症状主动追加“排除性提问”,减少漏诊。
持续在线学习
利用 Differential Privacy-FedAvg 框架,让多家医院在不上传原始数据的情况下,周期性聚合 Monitor/Controller 的 LoRA 低秩更新,实现“零样本→少样本”渐进式提升。
数据层
多语言跨文化验证
原文仅中文病历。可构建 平行语料库(中-英-西-法),检验 Agent Driven 调度是否在不同医学文化语境(主诉描述习惯、科室划分)下仍保持 ≥ 87 % 分诊准确率。
长病程纵向数据集
收集 同一患者 3-12 个月内的多次就诊记录,验证系统能否在 复诊场景 下自动跳过已稳定 PH 信息,仅聚焦新发 HPI,缩短轮次。
罕见病与多系统综合征压力测试
构建含 5 % 罕见病样本的“长尾”测试集,观察分诊准确率下降曲线,为“自动转人工”阈值提供数据依据。
临床层
儿科、产科专科适配
儿科需采集 胎龄、疫苗计划、生长发育百分位;产科需追加 孕周、胎心、既往孕产史。可扩展 T3 子任务至 8–10 个,检验框架可扩展性。
急诊快速分诊(< 3 轮)
引入 time-to-treatment 约束,设置轮次预算 ≤ 3,Controller 改为 bandit 算法,每轮实时权衡“信息增益 vs 时间成本”,验证是否仍满足 ESI 分诊标准。
与临床指南对齐的自动审计
将生成的 HPI/PH 与 NICE、CMA 指南 进行语义对齐度计算,输出“指南遵循率”报告,供质控部门抽检。
系统层
边缘离线部署优化
将八代理蒸馏为 单一 3B 参数多任务模型,采用 投机解码(speculative decoding)与 INT4 量化,在树莓派 5 上实现 ≤ 2 s 延迟,满足基层诊所离线需求。
语音-视觉多模态扩展
接入本地 Whisper-small 与 MedSAM 轻量级模型,支持患者 语音主诉 与 皮疹/创面照片 输入,Triager 增加“图文一致性”校验,减少文字描述偏差。
可撤销隐私保障
引入 ephemeral learning:每轮对话后模型权重 回滚 到初始状态,仅保留脱机结构化病历,确保“对话痕迹零残留”,通过 GDPR & HIPAA 右手删除 审计。
总结
以上 12 点均可在 不违反本地部署、零样本、隐私优先 三大原则下展开;其中 1、4、7、10 可直接复用现有代码框架,预期 2–3 个月可完成原型验证。
Q6: 总结一下论文的主要内容
论文提出首个层级式多智能体预问诊框架,把被动问答升级为主动、结构化、可解释的医疗对话系统。核心内容可概括为“一目标、两阶段、四任务、八代理、六实验”:
一目标:在≤30轮对话内完成高质量分诊与病史采集,缓解“5分钟门诊”困境。
两阶段:Triage → History Taking(含CC、HPI、PH)。
四任务:
T1分诊、T2现病史、T3既往史、T4主诉生成;T1–T3细分为13可评估子任务。
八代理:Controller统一调度,Monitor实时评分,Prompter+Inquirer生成追问,Triager辅助分诊,Recipient维护病历,Evaluator离线质检。
关键机制:子任务完成度≥0.85即出队,Controller按优先级动态选择下一TC,形成“评估–调度–追问”闭环。
六实验:
分诊准确率primary 87.0%、secondary 80.5%;
零样本跨模型(GPT-OSS/ Qwen3/ Phi4)任务完成率98.2%;
Agent Driven调度比固定顺序提升5.1 pp;
临床相似度≥3.74/5.0;
18名医师盲评4.45–4.69分;
平均轮次T2 12.7、T3 16.9,30轮内失败率<2%。
系统本地部署、无医疗微调、可解释更新,为医院提供即插即用的主动预问诊解决方案。
阅读全文 →
来源:Arxiv2025-11-03 10:55:35 UTC