SemiAnAgg:革新联邦半监督学习的新方法

Learning Unlabeled Clients Divergence via Anchor Model Aggregation for Federated Semi-supervised Learning

摘要

本文介绍了一种名为SemiAnAgg的新型联邦半监督学习方法,旨在解决联邦学习中客户端数据异质性和伪标签错误的问题。SemiAnAgg通过使用一个基于锚点的模型聚合方法,有效地利用了未标记客户端的信息,从而提高了模型的性能。该方法在四个广泛使用的联邦半监督学习基准测试中实现了新的最先进结果,显著提高了准确性和召回率。

原理

SemiAnAgg的核心思想是通过将本地客户端数据输入到同一个全局模型和一个一致初始化的锚点模型(即随机模型)中,来测量每个未标记客户端的重要性。具体来说,SemiAnAgg利用锚点模型来学习未标记客户端的贡献,通过测量客户端数据与锚点模型之间的距离来评估其信息价值。这种方法不仅考虑了客户端数据的多样性,还避免了传统方法中因伪标签错误导致的模型偏差。

流程

SemiAnAgg的工作流程包括以下几个步骤:

  1. 初始化:所有客户端共享一个全局模型和一个一致初始化的锚点模型。
  2. 本地训练:每个客户端使用本地数据对全局模型进行训练,并生成伪标签。
  3. 聚合:服务器收集所有客户端的模型更新,并使用SemiAnAgg方法进行聚合,该方法根据客户端数据与锚点模型之间的距离来调整每个客户端的权重。
  4. 更新全局模型:服务器根据聚合结果更新全局模型,并将其分发给所有客户端。
  5. 重复步骤2-4,直到模型收敛。

应用

SemiAnAgg方法在医疗图像分析、自然图像处理等领域具有广泛的应用前景。由于其能够有效处理数据异质性和伪标签问题,SemiAnAgg特别适用于需要保护数据隐私的场景,如医院间的协作学习。此外,该方法还可以扩展到其他需要半监督学习的领域,如语音识别和文本分析。