1 联邦学习的定义
联邦学习的最初定义为一种分布式机器学习算法框架,它借助多方客户端的私有数据集来训练全局共享模型。从广义角度讲,联邦学习意味着数据所有者无需上传私有数据集,就能结合多方数据去训练全局共享模型。这种方法得到的模型效果,与直接将数据整合到数据中心或一台机器上进行训练所得到的模型效果相近。并且,它还能保护数据的安全,避免数据隐私被泄露。
2 联邦学习的典型工作流程
模型开发者需要明确的是,要确定使用联邦学习来解决的问题。
客户端配置方面,运行在手机等设备上的客户端应用程序将被部署并进行配置,以收集本地模型训练所需的数据集。通常情况下,应用程序本身可能已经存储了一些数据,像短信应用程序会存储文本消息,照片管理应用程序会存储照片。而在某些情形下,可能需要维护其他类型的数据,比如用于监督学习任务提供标签的用户交互数据。
模型开发者使用辅助数据集,在联邦学习仿真环境中对模型的体系结构进行原型设计,同时测试学习模型超参数。
联合模型训练:开始执行多个联邦训练任务,这些任务是为了训练多个模型结构,或者训练具有不同优化超参数的模型。
模型评估:模型经过充分训练后,会对其进行分析与评估,以挑选出较好的模型。对模型的分析包含在数据中心的标准数据集上计算度量标准,以及进行联合评估,即把模型推送给受约束的一些客户端,利用他们的本地客户端私有数据集进行评估。
最后,当模型被选好后,它会经历一个标准模型启动过程。这个过程包含人工的质量检测,还有实时的 A/B 测试,通常是通过在一些设备上使用新模型,同时在另一些设备上使用上一代模型来对比它们的内部性能。并且会进行分阶段推出,这样在影响过多用户之前,就能够发现存在的问题并进行回滚。模型的特定启动过程是由应用程序的所有者进行设置的,并且通常和模型的训练方式没有关系。此步骤对于通过联邦学习训练的模型以及通过传统数据中心方法训练的模型来说是同等适用的。
3 联邦学习的分类
Yang 等人依据参与方数据分布的差异,把联邦学习划分成三类。一类是横向联邦学习,用(HFL)来表示;一类是纵向联邦学习,用(VFL)来表示;还有一类是迁移联邦学习,用(TFL)来表示。
横向联邦学习,也被称作基于样本的联邦学习。通常在实体之间用户特征重叠比较多,然而用户重叠比较少的情形下被使用。
纵向联邦学习,也被称作基于特征的联邦学习。通常在企业之间存在相同或者类似的用户空间的情况下适用,然而这些企业却拥有不同的特征空间。
联邦迁移学习适用于参与方的情况是,他们不仅样本维度不同,而且拥有完全不同的特征空间。比如有一个在中国的电商公司,还有一个在印度的社交网络公司。
4 联邦学习技术的应用
主要应用于教育领域
例如:
IT 行业的应用包括:对用户数据进行保护;实现隐私数据的安全流转;开展可扩展的分布式数据协作;进行联合学习和联合计算;实现数据共享;用于模型训练;提供面向产业应用的工具组件;进行数据脱敏及去标识化处理;支持加密算法;建设 DMZ 区;保障大数据安全等。
电信业的应用包括车联网通信、智能手机相关业务,还有联邦节点管理以及边缘节点管理等。同时涉及数据采集、模型训练、推理判断及智能预测等方面,能对识别业务流量后的带宽进行控制,也可进行阻塞控制和业务保障。此外,还包括用户信用评估以及用户满意度提升等工作。
金融领域包括金融风险管理,还有数据安全以及隐私保护。其中涉及小微信贷,要深度联合构建信用模型。同时涵盖客服工作,能侦测欺诈行为。并且具备高性能分布式异构计算技术,提供软硬件解决方案。以此来提升金融服务质量,安全且深入地挖掘数据价值等。
推荐阅读这份《智谱 AI&清华大学:2021 联邦学习全球研究与应用趋势报告(95 页).pdf》。
本文标签
工作时间:8:00-18:00
电子邮件
扫码二维码
获取最新动态