探索NLPGuard:一种减少NLP分类器偏见的新框架
摘要
本文介绍了一种名为NLPGuard的框架,旨在减少自然语言处理(NLP)分类器对受保护属性的依赖。随着深度学习在NLP模型中的广泛应用,这些模型往往作为黑箱系统运行,难以检测和纠正对敏感属性(如性别、种族或性取向)的误用。传统的偏见缓解方法主要关注在不同群体间实现性能平衡,但未能解决模型对受保护属性的依赖问题。NLPGuard框架通过处理未标记数据集、现有NLP分类器及其训练数据,生成一个修改后的训练数据集,显著减少了对受保护属性的依赖,同时不牺牲准确性。该框架在三个分类任务中进行了评估:识别有毒语言、情感分析和职业分类,结果显示NLPGuard有效地减少了模型对受保护属性的依赖,同时略微提高了准确性。
Read more...




![Human-Robot Mutual Learning through Affective-Linguistic Interaction and Differential Outcomes Training [Pre-Print]](https://arxiv-research-1301205113.cos.ap-guangzhou.myqcloud.com/images/2407.01280v1.pdf_0.jpg)



