GFLC:基于图的公平感知标签校正方法用于公平分类
论文信息
原始标题:GFLC: Graph-based Fairness-aware Label Correction for Fair Classification
作者:Modar Sulaiman, Kallol Roy
主题:Machine Learning, Artificial Intelligence
摘要
英文摘要
Fairness in machine learning (ML) has a critical importance for building trustworthy machine learning system as artificial intelligence (AI) systems increasingly impact various aspects of society, including healthcare decisions and legal judgments. Moreover, numerous studies demonstrate evidence of unfair outcomes in ML and the need for more robust fairness-aware methods. However, the data we use to train and develop debiasing techniques often contains biased and noisy labels. As a result, the label bias in the training data affects model performance and misrepresents the fairness of classifiers during testing. To tackle this problem, our paper presents Graph-based Fairness-aware Label Correction (GFLC), an efficient method for correcting label noise while preserving demographic parity in datasets. In particular, our approach combines three key components: prediction confidence measure, graph-based regularization through Ricci-flow-optimized graph Laplacians, and explicit demographic parity incentives. Our experimental findings show the effectiveness of our proposed approach and show significant improvements in the trade-off between performance and fairness metrics compared to the baseline.
中文摘要
机器学习(ML)中的公平性对于构建可信赖的机器学习系统具有至关重要的意义,因为人工智能(AI)系统日益影响社会的各个方面,包括医疗决策和法律判断。此外,众多研究表明ML存在不公平结果的证据,需要更强大的公平感知方法。然而,我们用来训练和开发去偏技术的数据通常包含有偏和噪声标签。因此,训练数据中的标签偏差会影响模型性能,并在测试期间误表相分类器的公平性。为了解决这个问题,我们的论文提出了基于图的公平感知标签校正(GFLC),这是一种在保持数据集中人口统计平等的同时校正标签噪声的有效方法。特别地,我们的方法结合了三个关键组件:预测置信度度量、通过Ricci流优化图拉普拉斯的基于图的正则化,以及显式的人口统计平等激励。我们的实验结果显示了所提出方法的有效性,并表明与基线相比,在性能和公平性指标的权衡方面有显著改进。
关键问答
这篇论文试图解决在机器学习中,训练数据中的标签噪声对模型性能和公平性产生负面影响的问题。具体来说,论文关注的是在存在群体依赖(group-dependent)标签噪声的情况下,如何在纠正标签噪声的同时保持不同人群之间的公平性。标签噪声是指训练数据中的标签可能不准确,而这种不准确可能受到敏感属性(如性别、年龄等)的影响,从而导致模型在不同人群之间表现出不公平性。
论文的主要目标是提出一种新的方法——基于图的公平感知标签校正(Graph-based Fairness-aware Label Correction, GFLC),该方法能够在纠正标签噪声的同时,确保不同人群之间的公平性,从而提高模型在测试阶段的性能和公平性表现。
论文提出了一种名为 Graph-based Fairness-aware Label Correction (GFLC) 的方法来解决标签噪声和公平性问题。GFLC 方法通过结合预测置信度度量、基于图的正则化(通过 Ricci 流优化的图拉普拉斯)和显式的公平性激励,有效地纠正标签噪声,同时确保不同人群之间的公平性。以下是 GFLC 方法的主要步骤和关键组件:
1. 方法概述
GFLC 方法的核心思想是通过结合以下三个关键组件来纠正标签噪声,同时确保公平性:
- 预测置信度度量:通过模型的预测置信度来识别可能的噪声标签。
- 基于图的正则化:利用 k-最近邻(k-NN)图和 Ricci 流优化的图拉普拉斯来捕捉数据的几何结构。
- 显式的公平性激励:通过显式地优化公平性指标(如群体公平性)来确保不同人群之间的公平性。
2. 具体步骤
以下是 GFLC 方法的具体步骤:
步骤 1:训练初始分类器
在带有噪声标签的数据集上训练一个初始分类器,以获得每个样本的类别概率 p_i = Pr(y_i = 1|x_i)。这些概率将用于后续的置信度度量。
步骤 2:构建 k-NN 图
根据数据点的特征构建 k-最近邻图 G = (V, E),其中每个节点表示一个数据点,边表示数据点之间的相似性。边的权重 w_ij 通过逆距离加权计算:
w_ij = 1 / max(d(x_i, x_j), ε)
其中 d(x_i, x_j) 是节点 i 和 j 之间的欧几里得距离,ε 是一个小常数,用于防止除以零。
步骤 3:计算 Ricci 曲率并应用 Ricci 流
计算图中每条边的离散 Forman-Ricci 曲率 F(e_uv):
F(e_uv) = w_uv(1 - 1/2(∑_{x∼u} w_uv/w_ux + ∑_{x∼v} w_uv/w_vx))
应用 Ricci 流更新边的权重,以优化图的几何结构:
w^(t+1)_ij = max(w^(t)_ij + η·F(e_uv)^(t), ε)
其中 η 是学习率,ε 是一个小常数,用于防止权重变为零。
步骤 4:计算公平性项
计算每个样本的公平性项 ΔDP_i,该指标衡量翻转标签 y_i 对群体公平性的影响:
ΔDP_i = DP_new - DP_original
其中 DP 是群体公平性指标,定义为不同群体之间正类预测率的最小值与最大值的比值:
DP = min_s Pr(ŷ = 1|S = s) / max_s Pr(ŷ = 1|S = s)
步骤 5:计算综合校正分数
对每个数据点 x_i,计算综合校正分数 score_i,该分数综合考虑了置信度项、图拉普拉斯正则化项和公平性激励项:
score_i = α(1 - M_i) + βL_i + γΔDP_i
其中:
- M_i 是置信度项,衡量模型对样本 i 的预测置信度。
- L_i 是图拉普拉斯正则化项,衡量样本 i 与其邻居之间的标签一致性。
- α, β, γ 是权重参数,用于平衡不同项的重要性。
步骤 6:选择并翻转标签
- 根据综合校正分数 score_i 对样本进行排序,选择得分最高的正样本和负样本进行标签翻转。
- 确定需要翻转的正样本数量 K^+ 和负样本数量 K^-,以确保翻转后的数据集满足预定的公平性目标。
论文中进行了以下实验来验证所提出的 Graph-based Fairness-aware Label Correction (GFLC) 方法的有效性:
1. 数据集选择
银行账户欺诈数据集 (Bank Account Fraud Dataset):
- 数据集包含 100 万个银行账户申请实例,每个实例有 30 个特征。
- 数据集的目标是检测银行账户开立过程中的欺诈行为。
- 敏感属性为申请人的年龄,分为两个群体:50 岁及以上(群体 A)和 50 岁以下(群体 B)。
- 数据集中正类(欺诈)占比约为 1.15%,负类(合法)占比约为 98.85%。
2. 标签噪声注入
- 为了评估 GFLC 方法在不同噪声水平下的表现,作者在无偏版本的数据集上注入了标签噪声。
- 标签噪声的注入基于标签和敏感群体,模拟了敏感属性影响标签错误的可能性。
- 实验中考虑了三种不同的噪声水平:5%、10% 和 20%。
- 标签噪声仅注入到一个特定群体(群体 A)中,以模拟敏感属性对标签噪声的影响。
3. 实验设置
GFLC 方法参数:
- k-NN 图的参数 k = 10。
- 综合校正分数的权重参数 α = 0.2,β = 0.6,γ = 0.2。
- Ricci 流迭代次数为 2 次。
- 目标差异容忍参数 D = 0.05。
- 使用 LightGBM 模型进行训练,配置为 100 个估计器和 0.1 的学习率。
基线方法:
- 使用 Fair-OBNC 作为基线方法,该方法是扩展自 OBNC 算法,考虑了公平性因素。
- 对 Fair-OBNC 进行了 50 次随机超参数配置,并在不同决策阈值下进行评估。
4. 性能和公平性指标
性能指标:
- AUC: 接收者操作特征曲线下面积。
- TPR (True Positive Rate): 真正率,即实际正类被正确识别的比例。
- TNR (True Negative Rate): 真负率,即实际负类被正确识别的比例。
- FPR (False Positive Rate): 假正率,即实际负类被错误识别为正类的比例。
- FNR (False Negative Rate): 假负率,即实际正类被错误识别为负类的比例。
- Precision: 精确率,即预测为正类的样本中实际为正类的比例。
公平性指标:
- Demographic Parity: 群体公平性,衡量不同群体之间正类预测率的平衡程度。
- Equal Opportunity: 平等机会,要求模型在不同群体中具有相同的真正率。
- Equalized Odds: 平等化机会,要求模型在不同群体中具有相同的真正率和假正率。
5. 实验结果
不同噪声水平下的 AUC 比较:
- 在 5% 噪声水平下,GFLC 的 AUC 为 0.874,而 Fair-OBNC 的 AUC 为 0.813。
- 在 10% 噪声水平下,GFLC 的 AUC 为 0.843,而 Fair-OBNC 的 AUC 为 0.783。
- 在 20% 噪声水平下,GFLC 的 AUC 为 0.799,而 Fair-OBNC 的 AUC 为 0.752。
不同噪声水平下的性能和公平性指标比较:
- 在 5% 噪声水平下,GFLC 在 TPR、FPR、Precision 等性能指标上均优于 Fair-OBNC,并且在 Demographic Parity、Equal Opportunity 和 Equalized Odds 等公平性指标上也表现出色。
- 在 10% 噪声水平下,GFLC 和 Fair-OBNC 的表现类似,但 GFLC 在高噪声水平下更具优势。
- 在 20% 噪声水平下,GFLC 在所有性能和公平性指标上均显著优于 Fair-OBNC,尤其是在 Demographic Parity 指标上,GFLC 能够保持接近 1 的比率,而 Fair-OBNC 的比率则显著下降。
6. 结论
- GFLC 方法在不同噪声水平下均能有效地纠正标签噪声,同时保持不同人群之间的公平性。
- GFLC 方法在高噪声水平下表现出色,显著优于基线方法 Fair-OBNC。
- GFLC 方法在性能和公平性指标上均取得了良好的平衡,为构建公平且鲁棒的机器学习模型提供了有效的解决方案。
论文提出的 Graph-based Fairness-aware Label Correction (GFLC) 方法在解决标签噪声和公平性问题上取得了显著的成果,但仍有一些可以进一步探索的方向:
1. 扩展到多分类问题
- 当前工作:GFLC 方法主要针对二分类问题进行了研究。
- 进一步探索:可以将 GFLC 方法扩展到多分类问题,研究如何在多分类场景下有效地纠正标签噪声并保持公平性。这可能需要对图拉普拉斯和 Ricci 流的计算进行调整,以适应多分类数据的复杂性。
2. 其他公平性定义
- 当前工作:GFLC 方法主要关注群体公平性(Demographic Parity)。
- 进一步探索:可以探索其他公平性定义,如个体公平性(Individual Fairness)或因果公平性(Causal Fairness)。这些公平性定义可能需要不同的激励机制和优化目标,以确保模型在不同公平性标准下均表现出色。
3. 动态图结构更新
- 当前工作:GFLC 方法在固定图结构上应用 Ricci 流进行边权重更新。
- 进一步探索:可以研究动态图结构更新的方法,例如在每次迭代中根据当前标签状态动态调整图的拓扑结构。这可能有助于更好地捕捉数据的动态变化,提高标签校正的准确性。
4. 结合深度学习模型
- 当前工作:GFLC 方法主要结合了传统的图拉普拉斯和 Ricci 流方法。
- 进一步探索:可以将 GFLC 方法与深度学习模型(如图神经网络,GNN)结合,利用深度学习的强大表示能力来进一步提高标签校正的性能。例如,可以将 GFLC 方法作为预处理步骤,为深度学习模型提供更准确的标签。
5. 大规模数据集上的应用
- 当前工作:GFLC 方法在中等规模的银行账户欺诈数据集上进行了验证。
- 进一步探索:可以将 GFLC 方法应用于更大规模的数据集,研究其在大规模数据上的效率和可扩展性。这可能需要优化算法的计算复杂度,以适应大规模数据集的需求。
6. 噪声分布的建模
- 当前工作:GFLC 方法假设标签噪声是群体依赖的,但未对噪声分布进行建模。
- 进一步探索:可以研究如何对标签噪声的分布进行建模,例如通过贝叶斯方法或生成对抗网络(GAN)来估计噪声分布。这可能有助于更准确地识别和纠正噪声标签。
7. 与其他标签校正方法的结合
- 当前工作:GFLC 方法独立于其他标签校正方法进行了研究。
- 进一步探索:可以研究将 GFLC 方法与其他标签校正方法(如基于聚类的方法、基于生成模型的方法)结合,以进一步提高标签校正的准确性和鲁棒性。
8. 实际应用场景的验证
- 当前工作:GFLC 方法在银行账户欺诈数据集上进行了验证。
- 进一步探索:可以在更多实际应用场景中验证 GFLC 方法的有效性,例如医疗诊断、信贷审批、招聘等。这将有助于评估 GFLC 方法在不同领域的适用性和效果。
9. 超参数优化
- 当前工作:GFLC 方法中的一些超参数(如 α, β, γ)是手动设置的。
- 进一步探索:可以研究自动化的超参数优化方法,例如贝叶斯优化或基于网格搜索的方法,以找到最优的超参数组合,进一步提高方法的性能。
10. 理论分析和收敛性证明
- 当前工作:GFLC 方法主要通过实验验证了其有效性。
- 进一步探索:可以对 GFLC 方法进行更深入的理论分析,例如证明其收敛性、泛化能力和稳定性。这将有助于更好地理解方法的原理和局限性。
这些进一步探索的方向不仅可以帮助 GFLC 方法在更广泛的应用场景中发挥作用,还可以推动公平机器学习和标签噪声处理领域的研究进展。