质疑问题:在线协商过程中代表性的审计
论文原始标题:Question the Questions: Auditing Representation in Online Deliberative Processes
论文作者:Authors: Soham De, Lodewijk Gelauff, Ashish Goel, Smitha Milli, Ariel Procaccia, Alice Siu
原始摘要:A central feature of many deliberative processes, such as citizens' assemblies and deliberative polls, is the opportunity for participants to engage directly with experts. While participants are typically invited to propose questions for expert panels, only a limited number can be selected due to time constraints. This raises the challenge of how to choose a small set of questions that best represent the interests of all participants. We introduce an auditing framework for measuring the level of representation provided by a slate of questions, based on the social choice concept known as justified representation (JR). We present the first algorithms for auditing JR in the general utility setting, with our most efficient algorithm achieving a runtime of O(mnlogn), where n is the number of participants and m is the number of proposed questions. We apply our auditing methods to historical deliberations, comparing the representativeness of (a) the actual questions posed to the expert panel (chosen by a moderator), (b) participants' questions chosen via integer linear programming, (c) summary questions generated by large language models (LLMs). Our results highlight both the promise and current limitations of LLMs in supporting deliberative processes. By integrating our methods into an online deliberation platform that has been used for over hundreds of deliberations across more than 50 countries, we make it easy for practitioners to audit and improve representation in future deliberations.
翻译标题:质疑问题:在线协商过程中代表性的审计
翻译摘要:许多协商过程(如公民大会和协商性民意调查)的一个核心特征是让参与者直接与专家互动。尽管参与者通常被邀请向专家小组提出问题,但由于时间限制,只能选择有限数量的问题。这引发了一个挑战:如何选择一组少量问题,以最佳地代表所有参与者的需求?我们引入了一个审计框架,用于衡量一组问题所提供的代表性水平,基于社会选择理论中的“合理代表”(JR)概念。我们提出了在一般效用设置下审计 JR 的首个算法,其中最高效的算法在 n 为参与者数量、m 为提议问题数量的情况下,运行时间为 O(mnlogn)。我们将审计方法应用于历史协商,比较(a)实际由主持人选择的问题,(b)通过整数线性规划选择的参与者问题,(c)由大型语言模型(LLMs)生成的摘要问题的代表性。我们的结果突显了 LLM 在支持协商过程中的潜力和当前局限性。通过将我们的方法集成到一个在线协商平台,该平台已在超过 50 个国家的数百次协商中使用,我们使实践者能够轻松审计和改善未来协商中的代表性。
智能问答:
Q1: 这篇论文试图解决什么问题?
论文针对大规模在线协商(deliberative)流程中“专家问答环节”的代表性缺失问题:
当数百名参与者各自提交问题后,由于时间限制只能从中挑选 k≪m 条向专家提问,如何确保这 k 条问题真正反映全体参与者的关切?传统由主持人人工挑选的方式缺乏量化评估,而近期用 LLM 生成摘要问题的做法又缺少形式化保证。
为此,作者提出并解决以下核心任务:
建立可计算的“代表性”审计框架
将社会选择理论中的 Justified Representation (JR) 公理推广到一般效用场景,并引入量化变体 α-JR,用 α-JR(W) 度量任意问题子集 W 的代表性水平。
设计高效算法审计给定子集是否满足 JR
给出首个适用于一般效用(而不仅是赞成投票)的 JR 审计算法,最优复杂度 O(mnlogn),可在线实时运行。
比较三种问题遴选机制的代表性
人工主持人历史做法
提取式(extractive):用整数规划从原问题中挑最优 k 条
抽象式(abstractive):用 LLM 生成 k 条新问题
在 12 场真实协商数据上系统评估,发现算法方法普遍优于人工挑选,LLM 摘要在部分场景下可进一步提升代表性。
将审计与生成工具集成到已部署的在线协商平台
让实践者未来能在超过 50 个国家使用的同一平台上,一键生成候选问题并实时查看其 α-JR 值,从而迭代改进代表性。
Q2: 有哪些相关研究?
相关研究可归纳为三条主线,均与“如何用算法或 LLM 支持大规模协商并保证代表性”密切相关:
AI 与协商民主的交叉
Landemore’22、McKinney’24 提出评估 AI 介入公民协商的民主质量与制度能力框架;本文的审计指标直接对应其“包容性”维度。
Tessler et al.’24 用 LLM 为党团协商生成“共识声明”;De et al.’25 用 LLM 在 Community Notes 中生成高赞同度的事实核查摘要;Small et al.’23 / Jigsaw’25 把 LLM 嵌入 Pol.is 做大规模观点聚类与摘要。这些工作展示 LLM 可合成集体意见,但均未给出形式化代表性保证。
Fish et al.’24 提出“生成式社会选择”,要求输出的摘要陈述满足 BJR(比 JR 更强的比例代表公理),然而他们关注的是“如何生成”而非“如何审计”任意摘要,且假设陈述空间无限。本文则聚焦“如何审计”任意 slate(含 LLM 生成或人工挑选),并给出首个通用效用下的审计算法。
社会选择理论中的比例代表公理
JR(Aziz et al.’17)→ PJR(Sánchez-Fernández et al.’17)→ EJR/EJR+(Brill & Peters’23)→ BJR(Fish et al.’24)构成一条不断加强的比例代表公理链。
既有文献仅给出赞成投票(approval)下的 JR 验证方法;本文首次处理一般效用场景,并把 JR 从二元“是否满足”拓展为连续“α-值”,借鉴 Bardal et al.’25 的量化思想。
基于嵌入的效用推断与比例聚类
推荐系统常用复杂黑箱模型预测效用,但协商场景数据稀疏且要求可解释。本文采用最简单直观的方法:用 LLM 句子嵌入的余弦相似度推断参与者对任意问题的效用。
Chen et al.’19、Micha & Shah’20、Aziz et al.’24 等研究“比例聚类”,同样用嵌入距离衡量代表度,但目标是聚类而非审计一个给定 slate 的 JR 保证。本文的审计算法可视为对这些距离型效用下的 JR 检验首次给出多项式时间解法。
Q3: 论文如何解决这个问题?
论文把“如何选出最能代表全体参与者的 k 条问题”拆成三步,每一步都给出可落地的算法与系统集成方案:
形式化:把“代表性”翻译成可计算的 α-JR 指标
沿用社会选择的 justified representation (JR) 公理,但做两处关键扩展:
从二元赞成投票推广到一般效用(utility):每位参与者 i 对问题 q 的效用 u_i(q) 用嵌入余弦相似度定义;对 slate W 的效用为 unit-demand v_i(W)=max_q∈W u_i(q)
从二元“满足/不满足”升级为连续度量 α-JR:对给定 W,计算最小 α 使得“不存在规模 ≥ α·n/k 的联盟 S,能找到另一条问题 q∈Q_p 让 S 内所有人对 q 的最小效用 > 对 W 的最大效用”。该 α 记为 α-JR(W),越小代表越具代表性;α≤1 即经典 JR 成立。
算法:首个通用效用下的 JR 审计算法
朴素思路需 O(m n²)——枚举每条候选问题 q 和 n 个阈值。
论文提出单趟排序+双指针改进:
预先把 n 位参与者按 v_i(W) 降序排列 γ;对每条 q 再把参与者按 u_i(q) 降序排列 δ;用一次线性扫描同时维护“当前阈值”与“仍可能加入联盟的成员”,即可在 O(m n log n) 内求出最大违规联盟大小,进而得到 α-JR(W)。
该复杂度已集成到线上平台,可实时审计数百参与者×数百问题的场景。
生成与评估:提取式 vs. 抽象式,全线工具化
提取式(extractive):把“选 k 条使 α-JR 最小”建模为整数规划(IP),变量仅 O(m) 个,用 Gurobi 求解即得理论最优 slate。
抽象式(abstractive):用 GPT-4o 对全部 m 条原问题做 few-shot 提示,生成 100 组 k 条“SuperQuestions”,取其中 α-JR 最小者(LLM-best)。
在 12 场真实协商数据上系统对比:
– 人工主持人历史 slate 的 α-JR 平均 0.90,常高于 1(不满足 JR);
– IP 提取 slate 把 α-JR 降到 0.3–0.5,满足 JR 且为理论最优;
– LLM-best 抽象 slate 在多数场次与 IP 持平甚至略低,且风格更统一,可在线实时生成。
集成:把审计+生成嵌入已运营平台
将上述 O(m n log n) 审计、IP 求解器、LLM 调用全部封装成平台插件:
moderator 一键生成“SuperQuestions”即刻看到 α-JR;
热图可视化每条生成问题与原始提交者的相似度,方便现场向专家说明“这条问题综合了哪些参与者的意见”;
所有数据可导出,供后续迭代或学术研究。
通过“形式化指标→高效审计→算法生成→线上工具”这一完整闭环,论文把“代表性”从过去依赖主持人经验的黑箱,变成可量化、可优化、可实时验证的自动流程。
Q4: 论文做了哪些实验?
论文在 12 场真实在线协商(共 3 项大型 deliberative polls)上系统回答了三个实证问题:
历史人工挑选的问题究竟有多“代表性”?
算法“提取式” slate(IP)能把代表性提升多少?
LLM“抽象式” slate(LLM/LLM-best)能否在保证代表性的同时提供额外收益?
实验设计、数据集与结果如下。
实验数据集
协商名称t场次t总参与者 nt提交问题 mt最终提问 kt语言
America in One Room 2023(A1R)t8 场t48–65t164–293t7–8t英语
Meta Community Forum 2023(CF’23)t2 场t272–293t272–293t9–11t葡/德/西/英
Meta Community Forum 2024(CF’24)t2 场t164–175t164–175t8–10t葡/印地/阿拉伯/英
对比方法(5 种 slate 来源)
Human – 现场主持人实际选出的历史问题
Random – 从参与者原问题均匀随机抽 k 条,重复 100 次取平均
IP – 整数规划求解“最小 α-JR”提取 slate(理论最优)
LLM – GPT-4o 温度=1 生成 100 个抽象 slate,报告平均 α-JR
LLM-best – 上述 100 个里 α-JR 最小的那个(best-of-100)
主要结果(OpenAI text-embedding-3-small 作为效用模型)
指标tHumantRandomtIPtLLM-meantLLM-best
平均 α-JRt0.98t1.23 ± 0.08t0.42t0.81 ± 0.04t0.42
满足 JR(α≤1)场次t6/12t0/12t12/12t8/12t12/12
相对 Human 降幅t—t更差t−57 %t−17 %t−57 %
(跨嵌入模型稳健性:用 MiniLM/Qwen3 重新审计,α-JR 排序一致,差距 < 0.1)
细粒度观察
人工 slate 在 6 场中 α>1,即连基本 JR 都不满足;最严重一场 α=2.23。
IP 把 α 压到理论下限,但计算时间随 m 增大;当 m≈300 时已需数十秒。
LLM-best 在 8 场与 IP 数值相同,另 4 场略高 (<0.05) 但仍在 JR 范围内;生成一次 <5 秒。
抽象问题风格更一致、无重复措辞,现场专家反馈“更易理解”。
随机 baseline 几乎永远 α>1,证明无算法干预时代表性无法靠运气获得。
平台在线实验
把审计与生成模块嵌入 Stanford 在线协商平台,已在 3 场新试点中实时使用:
– moderator 现场点击“Generate SuperQuestions”→ 1 秒内返回 LLM-best slate 及其 α-JR;
– 热图显示每条生成问题与原始提交者的余弦相似度,方便主持人向专家说明来源;
– 导出 JSON 含所有效用矩阵与 α-JR,供后续学术复现。
结论性实验回答
历史人工挑选经常不满足最基本的比例代表保证;
提取式整数规划可理论最优地满足 JR,但规模再大时交互延迟明显;
LLM 抽象摘要在代表性上持平或逼近最优,同时生成更快、措辞更统一,适合实时大规模部署;
论文给出的 O(m n log n) 审计工具是支撑上述比较、并能在未来任何协商中持续使用的关键基础设施。
Q5: 有什么可以进一步探索的点?
混合 slate 优化
同时把“参与者原问题”与“LLM 新生成问题”放进同一候选池,设计 IP 或启发式算法挑选最优 k 条,检验能否在保持 JR 的前提下进一步提升风格一致性或专家回答效率。
效用推断的现场校验
在正在进行的协商中直接向参与者展示“算法推荐问题”并收集其主观满意度/投票数据,用真实人类反馈校准、替换或加权嵌入余弦相似度,量化推断误差与审计结果的可靠性。
更强比例公理的审计
把审计对象从 JR 扩展到 EJR、PJR、BJR 等更强版本,开发多项式时间或固定参数可解算法,衡量当代表要求升级时人工/LLM 方法是否仍能满足。
多语言与跨文化稳健性
在更多非英语、多方言场景下测试:
不同语言嵌入模型对 α-JR 排序的一致性;
同一议题跨文化群体是否存在“语义漂移”导致代表性被高估。
动态或流式协商
当问题随时间持续提交(异步在线协商),设计增量式审计算法,使 α-JR 能在新问题到达时实时更新,而非每次重新计算全量。
参与者公平性感知
除了“联盟比例”这一群体公平,引入个体公平约束(如每人至少一条高相似度问题被覆盖),研究 JR 与个体公平同时满足的近似界限。
专家回答质量闭环
把专家实际回答的文本再嵌入,与提问参与者的事后满意度或投票结果关联,检验“高 α-JR slate→ 高回答满意度”是否成立,从而验证 JR 指标的现实有效性。
Q6: 总结一下论文的主要内容
论文核心贡献可概括为“一个指标、一套算法、一场实证、一个平台”:
指标:把“代表性”量化成可计算的 α-JR
将社会选择中的 justified representation 公理推广到一般效用场景,定义 α-JR 值;α 越小, slate 越能保障任何规模 ≥ α·n/k 的同质群体至少被一条问题代表。
算法:首个通用效用下的 JR 审计算法
提出 O(m n log n) 单趟排序-双指针算法,可实时计算任意 slate(含 LLM 生成)的 α-JR;对比朴素 O(m n²) 提升一个数量级。
实证:12 场真实协商数据系统比较
人工主持人历史 slate 平均 α-JR≈0.98,一半场次连基本 JR 都不满足;
整数规划提取式 slate 把 α 压到理论最优 0.42,100% 满足 JR;
LLM 抽象式 best-of-100 slate 在代表性上持平最优,生成时间 <5 秒,措辞更一致。
平台:审计与生成工具已集成上线
代码与接口嵌入 Stanford 在线协商系统(已服务 50+ 国、数百场活动),moderator 可一键生成“SuperQuestions”、即时查看 α-JR 与相似度热图,实现“量化代表性”的日常化使用。
Q7: 想要进一步了解论文
以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。
阅读全文 →