EP-MPD:联邦学习中的高效隐私保护多方重复数据删除协议
摘要
本文介绍了一种名为“高效隐私保护多方重复数据删除(EP-MPD)”的创新协议,旨在解决联邦学习(FL)中数据重复问题,同时保护数据隐私。该协议通过引入两种新颖的私有集合交集(PSI)协议变体,有效地从多个客户端的数据集中移除重复项,而无需泄露数据隐私。实验结果表明,EP-MPD协议在大型语言模型(LLM)的联邦学习中显著提高了模型的困惑度(perplexity),并减少了运行时间,从而在联邦学习中实现了隐私与性能的有效平衡。
原理
EP-MPD协议的核心在于其模块化设计,利用了两种新颖的PSI协议变体:EG-PSI (I) 和 EG-PSI (II)。这两种变体分别基于对称密钥和公钥加密技术,通过安全地计算多个客户端数据集的交集来识别和移除重复项。具体来说,EG-PSI (I) 使用伪随机置换(PRP)进行加密,而EG-PSI (II) 则依赖于 oblivious pseudorandom function (OPRF) 进行加密。这两种方法都确保了在计算交集时不会泄露任何额外的信息,从而保护了客户端数据的隐私。
流程
EP-MPD协议的工作流程包括三个主要阶段:
- 本地重复数据删除:每个客户端首先在其本地数据集上运行重复数据删除算法,以移除本地重复项。
 - 全局重复数据删除:所有客户端参与EP-MPD协议,通过递归应用EG-PSI协议来识别和移除跨客户端的重复项。具体来说,客户端通过构建一个二叉树结构,在每个层级上形成集群并执行EG-PSI协议,从而逐步移除重复项。
 - 联邦学习:在移除重复项后,客户端使用联邦学习协议(如FedAvg)来训练全局模型。服务器初始化模型参数并将其分发给客户端,客户端在本地数据集上训练模型并将更新发送回服务器,服务器随后聚合这些更新以生成新的全局模型。
 
应用
EP-MPD协议的应用前景广泛,特别是在需要大规模数据集和多个客户端参与的联邦学习场景中。例如,在医疗健康、智能城市和边缘计算等领域,EP-MPD可以有效地提高模型性能,减少训练时间和资源消耗,同时确保数据隐私。此外,随着联邦学习技术的普及,EP-MPD协议有望成为隐私保护机器学习的重要工具。
