通过结构化多智能体辩论揭示LLMs中的政治偏见
论文信息
原始标题:Revealing Political Bias in LLMs through Structured Multi-Agent Debate
作者:Aishwarya Bandaru, Fabian Bindley, Trevor Bluth, Nandini Chavda, Baixu Chen, Ethan Law
主题:Artificial Intelligence, Computers and Society, Social and Information Networks
摘要
英文摘要
Large language models (LLMs) are increasingly used to simulate social behaviour, yet their political biases and interaction dynamics in debates remain underexplored. We investigate how LLM type and agent gender attributes influence political bias using a structured multi-agent debate framework, by engaging Neutral, Republican, and Democrat American LLM agents in debates on politically sensitive topics. We systematically vary the underlying LLMs, agent genders, and debate formats to examine how model provenance and agent personas influence political bias and attitudes throughout debates. We find that Neutral agents consistently align with Democrats, while Republicans shift closer to the Neutral; gender influences agent attitudes, with agents adapting their opinions when aware of other agents' genders; and contrary to prior research, agents with shared political affiliations can form echo chambers, exhibiting the expected intensification of attitudes as debates progress.
中文摘要
大型语言模型(LLMs)越来越多地被用于模拟社会行为,但其在辩论中的政治偏见和互动动态仍未得到充分探索。我们通过一个结构化的多智能体辩论框架,研究LLM类型和智能体性别属性如何影响政治偏见。该框架让中立(Neutral)、共和党(Republican)和民主党(Democrat)立场的美国LLM智能体就政治敏感话题进行辩论。我们系统地改变底层LLMs、智能体性别和辩论形式,以研究模型来源和智能体角色如何影响整个辩论过程中的政治偏见和态度。我们发现:中立智能体始终与民主党保持一致,而共和党智能体则向中立靠拢;性别影响智能体态度,当智能体意识到其他智能体的性别时会调整自己的观点;与先前研究相反,具有相同政治倾向的智能体可以形成回音室,随着辩论的进行表现出预期的态度强化。
关键问答
这篇论文试图解决的问题是揭示大型语言模型(LLMs)在结构化多智能体辩论中所表现出的政治偏见。具体而言,研究聚焦于以下几个方面:
LLM类型和智能体性别属性对政治偏见的影响:通过构建一个包含中立(Neutral)、共和党(Republican)和民主党(Democrat)立场的美国LLM智能体的辩论框架,研究不同LLM模型、智能体性别属性以及辩论格式如何影响智能体在辩论中表达和调整观点,从而揭示模型本身所固有的政治偏见。
政治偏见的动态变化:探讨在辩论过程中,智能体的政治倾向是否会因辩论的进行而发生变化,以及这些变化是否受到LLM模型类型、智能体性别属性和辩论群体政治构成等因素的影响。
回音室效应(Echo Chamber)的观察:研究在具有相同政治倾向的智能体之间是否能够形成回音室效应,即智能体是否会因相互强化而采取更极端的态度,这与先前的研究结果相矛盾。
论文通过以下方法来解决揭示大型语言模型(LLMs)在结构化多智能体辩论中政治偏见的问题:
1. 构建多智能体辩论框架
智能体设置:设计了三种美国智能体:中立(Neutral)、共和党(Republican)和民主党(Democrat),并为每种智能体分配了性别中性的名字(如Sam、Alex、Taylor)以减少名字带来的影响。此外,还为智能体添加了详细的背景故事、核心信念、动机和内部冲突等,以增强其人格化特征。
验证智能体有效性:通过采访60个智能体(12种人格配置,涵盖5种模型:Llama 3.2、GPT4o-mini、Gemma 7B、DeepSeek R1和Qwen 2.5),使用21个问题从不同政治立场评估智能体的回答。使用Mistral 7B作为LLM-as-a-judge评估智能体回答与其分配政治倾向和性别属性的一致性,并手动审查约10%的约1250个回答以验证评估器的准确性。
2. 选择辩论主题和格式
辩论主题选择:选择了四个政治敏感主题:气候变化、枪支暴力、非法移民和堕胎。从一个包含710个问题的数据库中选择具体问题,并结合GPT生成的正反两方论点,手动调整后生成详细的辩论场景。
辩论格式:辩论包括开场陈述、十轮辩论和总结陈述。中立智能体被指示听取双方论点,而有立场的智能体(共和党和民主党)则试图影响中立智能体的观点。
3. 设计实验
LLM类型实验:评估不同LLM模型对智能体行为的影响。
性别属性实验:引入性别(男性、女性)到智能体的人格提示中,评估其对智能体论点和易受说服的影响。此外,还测试了智能体是否知晓其他智能体性情的变体。
回音室效应实验:通过模拟两个相同政治倾向的智能体(共和党或民主党)的辩论,然后加入一个中立智能体,形成三智能体辩论,观察是否形成回音室效应。
论文中进行了以下实验来研究大型语言模型(LLMs)在结构化多智能体辩论中的政治偏见:
1. LLM类型实验
目标:评估不同LLM模型对智能体政治倾向的影响。
方法:将五种不同的LLM模型(Llama 3.2、GPT4o-mini、Gemma 7B、DeepSeek R1和Qwen 2.5)分别分配给中立(Neutral)、共和党(Republican)和民主党(Democrat)智能体,进行辩论。
结果:
共和党智能体在辩论过程中倾向于向中立或民主党立场靠拢。
民主党智能体和中立智能体的态度相对稳定,中立智能体的态度更倾向于民主党。
不同模型在不同主题上的表现存在显著差异,例如DeepSeek R1在表示政治立场时一致性较差,而Llama和GPT表现出更大的态度波动。
2. 性别属性实验
目标:评估性别属性对智能体政治倾向的影响。
方法:为智能体添加性别属性(男性、女性),并测试智能体是否知晓其他智能体的性别。
结果:
当智能体知晓其他智能体的性别时,性别对智能体的政治倾向有显著影响。
女性共和党智能体在男性主导的辩论中立场变得不那么极端。
女性民主党智能体在与男性辩论时立场更倾向于左倾。
在不知晓性别的情况下,女性共和党智能体保持更右倾的立场,而女性民主党智能体在某些主题上表现出更强的左倾立场。