首页 / 纵览天下 / 正文
联邦学习火了:学者联合论文阐述其问题、挑战和研究方向

Time:2025年04月06日 Read:3 评论:0 作者:haiwenboyue

编|贾 伟

联邦学习在近期的 AI 界非常火爆。在 2019 年,涌现出了众多与联邦学习相关的研究。联邦学习是一个机器学习框架,它能让用户利用分布在不同位置的多个数据集来训练机器学习模型,还能防止数据泄露并遵循严格的数据隐私法规。

可以防止数据发生泄露!这表明联邦学习或许是解决数据具有敏感性的重要办法。近期,来自澳大利亚国立大学、卡内基·梅隆大学、康奈尔大学、谷歌、香港科技大学等机构的学者们共同发布了一篇论文,详细地说明了该领域所遭遇的开放性问题与挑战,并且列举出了诸多珍贵的研究方向。

(雷锋网)论文下载地址:

探讨了模型被操控和失败的因素等热点问题。

引 言

联邦学习是一种机器学习设置,多个客户端(像移动设备或者整个组织等)在一个中央服务器(例如服务提供商等)的引领下进行协作式地训练模型,并且在这个过程中能保证训练数据的去中心化。

联邦学习通过使用局部数据收集以及遵循最小化原则,能够降低传统中心化机器学习方法所带来的部分系统性隐私风险和成本。2016 年,等人首次提出了联邦学习这一术语。然而,在该术语诞生之前,就已经有大量相关研究工作在致力于数据隐私保护,比如在 20 世纪 80 年代就已经出现了计算加密数据的加密方法。联邦学习最初主要强调的是在移动和边缘设备上的应用。研究者将这两种设置分别进行了命名,一种称作跨设备(-),另一种称作-silo。

这篇论文基于这两种变体给出了一个更广泛的联邦学习定义:联邦学习是多个实体(客户端)协作来解决机器学习问题的一种机器学习设置,并且是在一个中央服务器或服务提供商的协调下进行的。

每个客户端的原始数据都存储在本地,这些数据不能进行交换或迁移。联邦学习通过利用局部更新(用于立即进行聚合)来达成学习目标。值得注意的是,此定义明确地将联邦学习与完全去中心化的学习技术区分开来。

(雷锋网)

联邦学习训练有其生命周期,且联邦学习系统中有多个参与者,上图对此进行了展示。具体来讲,其工作流程包含 6 个部分:一是进行问题识别;二是进行客户端设置;三是开发模型原型;四是开展联邦模型训练;五是进行模型评估;六是进行部署。

在训练过程方面,主要包含以下几个部分:一是客户端的选择;二是进行广播;三是客户端进行计算;四是进行聚合;五是进行模型更新。客户端选择步骤主要是从符合要求的客户端里进行采样;广播步骤主要是选中的客户端从服务器下载当前的模型权重以及训练程序;而客户端计算、聚合以及模型更新阶段的分离,这并非联邦学习的严格要求,不过它确实将特定类别的算法排除在外了,比如异步 SGD。

跨设备设置以外的其他联邦学习设置和问题

在联邦学习的训练过程中,服务器始终在发挥着中心性的作用。当客户端的数量达到非常庞大的程度时,服务器有可能会成为训练过程中的瓶颈所在。而完全去中心化的关键理念便是运用点对点的方式来替代以服务器为中心的那种通信模式。

客户端在完全去中心化的算法中充当节点,客户端之间的通信信道成为边,这种边与点的关系构建了联邦学习网络。注意此网络不再是标准联邦学习中的全局状态,该过程能够被设计成让所有局部模型都收敛到期望的全局解,也就是各个模型逐步形成共识。

联邦学习_联邦学习_联邦学校

完全分布的情况下,仍然需要有一个中心来负责分配学习任务。这些学习任务包含算法选择、超参数选择以及调试等。这个中心的选择需要获得信任,它可以由提出学习任务的客户来担当,也可以通过协商一致来决定。

(雷锋网)

联邦学习和分布式学习存在比较。关于机器学习的去中心化方案,当前依然面临诸多算法问题。其中,有些问题与使用中央服务器进行联合学习的特殊情况类似。另外,还有一些问题是由完全分布所产生的副作用导致的。在算法领域,所面临的挑战主要包含以下几个方面:一是网络拓扑以及异步对分布 SGD 所产生的影响;二是本地更新的分布式 SGD;三是个性化以及信任机制;四是梯度压缩和量化方法。

-Silo 联邦学习:与跨设备联合学习的特征不同,在总体设计的某些方面,-Silo 联邦学习具有很大的灵活性。当许多组织只是希望共享训练模型,而不想分享数据时,-silo 设置是一个非常好的选择。

Silo 联邦学习的设置包含以下几个要点:其一为数据分割;其二是激励机制;其三是差异隐私;其四为张量因子分解。

(雷锋网)两种分割学习设置

分割学习:其关键思想在于在客户端与服务器之间实施基于每层的分割模型,并将其应用于训练与推理过程。分裂学习的最简单配置为,每个客户端都进行深层网络的前向传递计算,接着切割层的输出,也就是将粉碎后的数据发送至另一个服务器或客户端,之后由该服务器或客户端完成剩余的计算。这意味着要让不共享的数据进行前向传播;最后能够以相似的方式把梯度从其最后一层往反向传播到切割层。需注意此过程会持续到收敛为止。

如何提高效率

这部分论文属于探索各种技术的开放性章节。讨论的问题包含开发更优的优化算法,为不同客户端提供差异化模型,以及在联邦学习背景下如何执行机器学习任务。解决上述这些问题存在非常多的挑战,其中一个挑战便是 Non-IID(不合符独立同分布的要求)数据的存在。这种问题出现的原因主要包含三个方面:其一,不同的客户端存在分布情况;其二,违反了独立性假设;其三,发生了数据集迁移。

如何处理 Non-IID 数据呢?一般的做法是对现有的算法进行修改。在一些应用程序中,既可以选择扩充数据,也可以通过一些方式使跨客户端的数据更为相似。比如创建一个能够在全局范围内共享的小型数据集。

另一个提高效率的途径是对算法进行联邦学习优化。在一些典型的联邦学习任务里,其优化目标是让“某些函数”达到最小化。联合优化算法与标准分布式训练方法的主要差别在于:要应对非独立同分布(non-IID)数据以及不平衡数据。另外,联邦学习还有一个重要的实际考虑因素,即算法与其他技术的可组合性。例如,可以根据实际情况对有状态的优化算法(如 ADMM)和有状态的压缩策略进行调整。

多任务学习、个性化以及元学习在面对非 IID 数据时效果显著,其性能有可能超越最佳的共享全局模型。另外,通过特征化来实现个性化,这种输入能够让共享的全局模型作出高度个性化的预测。为使训练效果更高效,可对机器学习工作流程进行调整。

标准的机器学习工作流程包含数据增强、特征工程、神经体系结构设计、模型选择、超参数优化等。这些在配置到分散的数据集和资源受限的移动设备时,会出现许多问题。

保护用户数据的隐私

各种威胁模型的机器学习工作流程包含各种参与者。用户能够通过与设备进行交互来生成训练数据。机器学习工程师参与的方式是训练并评估模型的质量。在理想状况下,系统里的每个参与者都能轻易推断出自身的信息是否有泄露,各方参与者可以依据这些推断来确定是否采取行动。

联邦学习_联邦学校_联邦学习

论文在这一章概述了现有的成果,介绍了怎样设计才能提供严格隐私保障,以及当下联合学习系统所面临的挑战。当然,除了针对用户隐私的攻击外,还有其他类别的针对联合学习的攻击。比如,对手可能试图从根本上阻止模型训练,或者试图让模型产生偏见。论文讨论了多种能提供保护的威胁模型,接着列出了一些核心工具和技术。对可信服务器做了假设,并且讨论了在敌意客户端和分析者的保护方面存在的公开问题与挑战。

对攻击和失败的健壮性

现代机器学习系统容易出现问题。这些问题的出现或许并非恶意,像是预处理管道中的错误,有噪音的培训标签,不靠谱的客户端,以及针对训练和部署的显式攻击。在本节里,论文介绍了联邦学习的分布式特性、体系结构设计以及数据约束,它们打开了新的失败模式和攻击面。

此外值得注意的是,在联邦学习中,用于保护隐私的安全机制可能会致使检测和纠正变得极为困难。论文还探讨了不同类型的攻击与失败之间的关系,以及这些关系在联邦学习里的重要性。关于模型性能的对抗性攻击:攻击方或许不仅仅针对模型的性能展开攻击,还有可能去推断参与训练的用户的私有数据。对抗性攻击的例子有不少,其中包含数据中毒,还有模型更新中毒,另外也有模型规避攻击。

非恶意故障模式:相较于传统数据中心模式的训练,联邦学习特别容易受到客户端非恶意故障的影响。系统因素和数据约束会导致非恶意故障,就像敌意攻击一样。非恶意故障通常破坏性比恶意攻击小,但出现频率更高,且往往与恶意攻击有着共同的根源和复杂性。因此,对付非恶意故障的方法也能用在对付恶意攻击上面。

4. 所以,研究在使用安全聚合时如何防御敌意攻击是非常重要的。

首先介绍了对抗性攻击,接着讨论了非恶意失效模式,最后探讨了隐私与健壮性之间的张力。

公平,消除偏见

机器学习模型的表现时常让人感到惊讶。这些行为模型对用户不友好时,研究者会将其视为不公平。比如,具有相似特征的人却得到完全不同的结果,这就违背了个体公平的标准。某些敏感群体(如种族、性别等)得到不同结果时,可能违反人口统计学公平的各种标准。

训练数据存在偏差:在机器学习模型中,不公平的一个驱动因素就是训练数据中的偏差,这些偏差包括认知抽样偏差、报告偏差和确认偏差。

个别特征数据在总的数据集中代表性不足,这是一种常见现象。所以模型训练后得到的权重不能代表问题。就如同联合学习中,数据访问过程可能会引入数据集移位和非独立性。

公平且不获取敏感属性:明确获取诸如种族、性别等人口统计信息会引发关于公平性标准的讨论。在个人敏感属性不可用的情况下,经常部署联邦学习的环境也会引发对公平性的讨论,比如开发个性化的语言模型和公平的医学分类器。因此,测量和纠正不公平是联合学习研究人员需要解决的一个关键问题。

公平与隐私:公平和数据隐私这两个概念似乎是相互补充的。在许多存在隐私保护需求的现实环境里,公平也是极为重要的。因为联合学习最有可能被部署在既需要隐私又需要公平的敏感数据环境中,所以解决公平和隐私问题就显得至关重要。

联邦学习能够组合可能已与敏感属性相关的数据,以改善这些模型的公平性,从而提高模型性能。

结 论

联邦学习让分布式客户端设备具备协作学习的能力,还能共享预测模型。并且在这个过程中,所有训练数据都被保存在设备上。这样就把机器学习的能力和将数据存储在云中的需求分离开了。

近年来,联邦学习的话题在工业界和学术界都呈现出爆炸性的增长态势。联邦学习在其他学科领域的影响力在逐渐扩大,涵盖从机器学习到优化,从信息论和统计到密码学、公平性和隐私等多个方面。数据隐私并非是二元的,在不同的假设下,其威胁模型各不相同,每一个模型都有着自身独特的挑战。

论文讨论的开放性问题存在不全面的情况,这反映了作者的兴趣和背景。本文不讨论机器学习项目中需要解决的非学习问题,因为这些问题可能需要依据分散的数据来解决。比如计算基本的描述性统计,计算开放集上的直方图头部。另外一个未被讨论的重要主题是可能激发或限制联邦学习使用的法律和业务问题。

标签:
关于我们
海文博阅网,打造全方位的文化信息阅读平台,涵盖社会动态、历史人文、生活百科等广泛内容。我们为读者提供高质量的资讯和深度文章,让阅读成为获取知识、拓宽视野的桥梁。在这里,您可以随时随地畅游知识的海洋,感受阅读的魅力。
发文扫码联系站长微信
Copyright ©2021-2025 Comsenz Inc.Powered by©haiwenboyue 文章发布联系站长:dat818