论文1-联邦机器学习:概念和应用
联邦机器学习:概念和应用(原文)
今天的人工智能仍然面临两大挑战。其一,在大多数行业中,数据以孤岛的形式存在。二是加强数据隐私和安全。针对这些挑战,我们提出了一种可能的解决方案:安全联邦学习。除了谷歌于2016年首次提出的联邦学习框架外,我们还引入了一个全面的安全联邦学习框架,其中包括水平联邦学习、垂直联邦学习和联邦迁移学习。我们提供了联邦学习框架的定义、体系结构和应用程序,并提供了关于这个主题的现有工作的全面调查。此外,我们建议在组织之间建立基于联邦机制的数据网络,作为一种有效的解决方案,允许知识共享而不损害用户隐私。
计算分类系统(CSS):安全和隐私;计算方式→人工智能;机器学习;监督学习;
额外关键字和词组:联邦学习,GDPR通用数据保护条例(General Data Protection Regulation),迁移学习
ACM美国计算机协会(Association for Computing Machinery)基准格式:Qiang Yang, Yang Liu, Tianjian Chen, and Yongxin Tong. 2019. Federated Machine Learning: Concept and Applications. ACM Trans. Intell. Syst. Technol. 10, 2, Article 12 (February 2019), 19 pages.
1. 引言
2016年是人工智能(AI)成熟的一年。随着AlphaGo[59]击败人类顶级围棋棋手,我们真正见证了人工智能(AI)的巨大潜力,并开始期待更复杂、更尖端的人工智能技术在许多应用中,包括无人驾驶汽车、医疗保健、金融等。如今,人工智能技术几乎在每个行业和各行各业都显示出其优势。然而,当我们回顾人工智能的发展历程时,人工智能的发展经历了一些起起落落是不可避免的。人工智能还会出现下一个低迷期吗?什么时候会出现,因为什么因素?目前公众对人工智能的兴趣部分是由大数据可用性驱动的:2016年AlphaGo总共使用了30万次游戏作为训练数据,从而取得了出色的结果。
随着AlphaGo的成功,人们自然希望类似AlphaGo这样受大数据驱动的人工智将很快在我们生活的方方面面得到实现。然而,现实世界的机构有一些不满意:除了少数行业,而大多数领域的数据都很有限或者质量很差,实现人工智能技术比我们想象的更加困难。通过跨组织传输数据,是否有可能将数据融合到一个公共站点?事实上,在许多情况下,打破数据源之间的障碍即使不是不可能,也是非常困难的。一般来说,任何AI项目所需的数据都涉及多种类型。例如,在一个人工智能驱动的产品推荐服务中,产品卖家有关于该产品的信息、用户的购买数据,但没有描述用户购买能力和支付习惯的数据。在大多数行业中,数据以孤岛的形式存在。由于行业竞争、隐私安全、行政程序复杂等原因,即使是同一家公司不同部门之间的数据集成也面临着重重阻力。将分散在全国各地的数据和机构整合起来几乎是不可能的,就算可能实现,成本也会让人望而却步。
与此同时,随着大公司在数据安全和用户隐私方面妥协意识的增强,对数据隐私和安全的重视已经成为世界性的重大问题。关于公共数据泄露的新闻在公共媒体和政府中引起了极大的关注。例如,最近Facebook的数据泄露引起了广泛的抗议[70]。作为回应,世界各国正在加强保护数据安全和隐私的法律。例如,欧盟于2018年5月25日实施的《通用数据保护条例》(GDPR)[19]。GDPR(图1)旨在保护用户的个人隐私和数据安全。它要求企业在用户协议中使用清晰明了的语言,并授予用户“被遗忘权”,即用户的个人数据可以被删除或撤回。违反该法案的公司将面临严厉的罚款。美国和中国都在制定类似的隐私和安全法案。例如,中国网络安全法律和民法的一般原则,在2017年颁布,要求互联网企业不得泄漏或篡改其收集的个人信息,以及与第三方进行交易数据时,需要确保该拟议的合同遵循法律数据保护的义务。这些规定的建立显然将有助于建设一个更加文明的社会,但也将对目前人工智能中常用的数据交易程序提出新的挑战。
图1所示。GDPR:欧盟数据保护法规
更具体地说,人工智能中的传统数据处理模型通常涉及简单的数据事务模型,一方收集数据并将数据传输给另一方,另一方负责数据的清理和融合。最后,第三方将获取集成的数据并建立模型供其他各方使用。模型通常是作为服务出售的最终产品。这一传统程序面临着上述新的数据法规和法律的挑战。此外,由于用户可能不清楚模型的未来用途,这些交易违反了GDPR等法律。因此,我们面临着一个两难的境地,我们的数据是以孤岛的形式存在的,但在很多情况下,我们被禁止收集、融合和使用数据到不同的地方进行人工智能处理。如何合法地解决数据碎片化和隔离的问题,是当今人工智能研究人员和实践者面临的主要挑战。
在本文中,我们将概述一种称为联邦学习的新方法,它是解决这些挑战的一种可能的解决方案。我们调查了关于联邦学习的现有工作,并提出了定义、分类和一个全面的安全联邦学习框架的应用程序。我们将讨论如何将联邦学习框架成功地应用于各种业务。在促进联邦学习的过程中,我们希望将人工智能开发的重点从改进模型性能(这是大多数人工智能领域目前正在做的事情)转移到研究符合数据隐私和安全法律的数据集成方法。
2. 联邦学习概述
联邦学习的概念是谷歌最近提出的[36,37,41]。他们的主要想法是基于分布在多个设备上的数据集构建机器学习模型,同时防止数据泄漏。最近的改进集中在克服联邦学习中的统计挑战[60,77]和提高安全性[9,23]。也有研究努力使联邦学习更加个性化[13,60]。以上所有的工作都集中在设备联邦学习,其中涉及到分布式移动用户交互,大规模分布的通信成本,不平衡的数据分布和设备可靠性是优化的一些主要因素。另外,数据在数据空间中是按用户id或设备id进行水平分区的。这一行的工作与隐私保护机器学习(如[58])非常相关,因为它也考虑在去中心化的协作学习设置中的数据隐私。为了扩展联邦学习的概念以涵盖组织之间的协作学习场景,我们将最初的“联邦学习”扩展为所有保护隐私的分散协作机器学习技术的一般概念。在[71]中,我们对联邦学习和联邦迁移学习技术进行了初步的概述。在本文中,我们进一步研究了相关的安全基础,并探讨了与多个相关领域的关系,如多智能体理论和隐私保护数据挖掘。在本节中,我们提供一个更全面的联邦学习定义,其中考虑了数据分区、安全性和应用程序。我们还描述了联邦学习系统的工作流程和系统结构。
2.1 联邦学习的定义
定义N个数据所有者{F1,…FN},他们都希望通过合并各自的数据{D1,…DN}来训练一个机器学习模型。常规的方法是把所有数据集合起来,用D = D1∪…∪DNto训练一个MSUM模型。联邦学习系统是数据所有者协作训练一个模型的学习过程,在这个学习过程中,任何数据所有者都不向他人公开其数据。形式上,设δ为非负实数,如果
,我们说联邦学习算法有着δ-精度损失。
2.2 联邦学习的隐私
隐私性是联邦学习的基本特性之一。这需要安全模型和分析来提供有意义的隐私保障。在本节中,我们将简要回顾和比较用于联邦学习的不同隐私技术,并确定防止间接泄漏的方法和潜在挑战。
安全多方计算(SMC)。SMC安全模型自然涉及到多方,并在一个定义良好的仿真框架中提供安全证明,以保证完全零知识,即各方只知道自己的输入和输出。零知识是非常理想的,但这种理想的性质通常需要复杂的计算协议,而且可能无法有效地实现。在某些情况下,如果提供了安全保障,部分知识公开可以被认为是可以接受的。在较低的安全要求下,可以用SMC建立安全模型来换取[16]的效率。最近,研究[46]使用SMC框架训练机器学习模型,有两个服务器和半诚实假设。参考文献[33]使用MPC协议进行模型训练和验证,而不需要用户透露敏感数据。最先进的SMC框架之一是Sharemind[8]。参考文献[44]提出了一个3PC模型[5,21,45],该模型具有诚实的多数,并考虑了半诚实和恶意假设的安全性。这些工作要求参与者的数据在不串通的服务器之间秘密共享。
微分隐私。另一种方法是使用差分隐私技术[18]或k-匿名[63]来保护数据隐私[1,12,42,61]。差分隐私法、k-匿名法和多样化[3]方法涉及到对数据进行加噪,或使用泛化方法模糊某些敏感属性,直到第三方无法区分个体,从而使数据无法恢复,从而保护用户隐私。然而,这些方法的根源仍然要求数据传输到其他地方,这些工作通常涉及准确性和隐私之间的权衡。在[23]中,作者引入了联邦学习的差分隐私方法,以便通过在训练期间隐藏客户端的贡献来增加对客户端数据的保护。
同态加密。在机器学习过程中,还采用同态加密[53],通过加密机制下的参数交换来保护用户数据隐私[24,26,48]。与差分隐私保护不同,数据和模型本身不会被传输,也不能被对方的数据猜测。因此,在原始数据级别泄漏的可能性很小。最近的研究采用同态加密技术对云数据进行集中和训练[75,76]。在实践中,加性同态加密[2]被广泛使用,在机器学习算法中需要进行多项式近似来评估非线性函数,从而在精度和隐私之间进行权衡[4,35]。
2.2.1 间接信息泄露。
联邦学习的先驱作品揭示了中间结果,例如,来自诸如随机梯度下降(SGD)等优化算法的没有提供安全保证,的参数更新[41,58],当与数据结构(例如图像像素)一起暴露时,这些梯度的泄漏实际上可能泄漏了重要的数据信息[51]。研究人员已经考虑过这样的情况:一个联邦学习系统的成员恶意攻击他人通过允许一个被插入用于来学习其他人数据的后门。在[6]中,作者证明了在联合全局模型中插入隐藏后门是可能的,并提出了一种新的“约束-规模”模型中毒方法来减少数据中毒。在[43]中,研究人员发现了协作机器学习系统的潜在漏洞,在协作学习中,不同各方使用的训练数据容易受到推理攻击。他们表明,一个敌对的参与者可以推断出与训练数据子集相关联的成员身份和属性。他们还讨论了对这些攻击可能采取的防御措施。在[62]中,作者揭示了与不同方之间的梯度交换相关的潜在安全问题,并提出了梯度下降法的一个安全变体,并表明它可以拜占庭容错(例如:只要叛徒的数量不超过将军的三分之一,就是拜占庭容错)。
研究人员也开始考虑将区块链作为一个促进联邦学习的平台。在[34]中,研究人员考虑了区块链联邦学习(BlockFL)架构,其中移动设备的本地学习模型更新通过利用区块链交换和验证。他们考虑了最优块生成、网络可扩展性和鲁棒性问题。
2.3 联邦学习的分类
在本节中,我们将讨论如何根据数据的分布特征对联邦学习进行分类。
设矩阵dient表示每个数据所有者所持有的数据i,矩阵的每一行代表一个样本,每一列代表一个特征。同时,一些数据集也可能包含标签数据。我们表示特征空间为X,标签空间为Y,我们用I表示样本ID空间。例如,在金融领域标签可能是用户的信用;在营销领域,标签可能是用户的购买欲望;在教育领域,Y可能是学生的学位。特征X、标签Y和样本id I构成完整的训练数据集(I,X,Y)。数据各方的特征和样本空间可能不相同,我们根据特征和样本ID空间中数据在各方之间的分布情况,将联邦学习分为水平联邦学习、垂直联邦学习和联合迁移学习。图2显示了用于两方场景的各种联邦学习框架。
(a) 水平联邦学习
(b) 垂直联邦学习
(c) 联邦迁移学习
图2. 联邦学习的分类
2.3.1 水平联邦学习
水平联邦学习,或基于样本的联邦学习,是在数据集共享相同的特征空间但样本不同的场景中引入的(图2a)。例如,两个区域性银行可能有来自各自地区的非常不同的用户组,并且它们的用户交集非常小。然而,它们的业务非常相似,所以功能空间是相同的。参考文献[58]提出了一种协作深度学习方案,参与者独立训练,只共享参数更新的子集。2017年,谷歌为Android手机型号更新[41]提出了水平联邦学习解决方案。在该框架中,使用Android手机的单个用户在本地更新模型参数,并将参数上传到Android云,从而与其他数据所有者共同训练集中的模型。[9]还引入了一种安全的聚合方案,在联邦学习框架下保护聚合用户更新的隐私。参考文献[51]为模型参数聚合添加同态加密,以提供针对中央服务器的安全性。
在[60]中,提出了一个多任务风格的联邦学习系统,允许多个站点完成独立的任务,同时共享知识和保持安全。他们提出的多任务学习模型还可以解决高通信成本、掉线和容错问题。在[41]中,作者提议构建一个安全的客户机-服务器结构,其中联邦学习系统按用户划分数据,并允许在客户机设备上构建的模型在服务器站点上协作,以构建一个全局联合模型。模型的构建过程确保了没有数据泄漏。同样,在[36]中,作者提出了提高通信成本的方法,以促进基于分布在移动客户端的数据的集中式模型的训练。最近,一种被称为深度梯度压缩[39]的压缩方法被提出,用来大大降低大规模分布式训练中的通信带宽。
我们将水平联邦学习总结为:
安全的定义。水平联邦学习系统通常假定诚实的参与者和安全性,以针对诚实且好奇的服务器[9,51]。也就是说,只有服务器可以泄露数据参与者的隐私。
2.3.2 垂直联邦学习。
对于垂直划分的数据,已经提出了保护隐私的机器学习算法,包括合作统计分析[15]、关联规则挖掘[65]、安全线性回归[22,32,55]、分类[16]和梯度下降[68]。最近,文献[27,49]提出了一种垂直联邦学习方案来训练一个隐私保护逻辑回归模型。作者研究了实体解析对学习性能的影响,并对损失函数和梯度函数应用泰勒近似,使同态加密能够用于隐私保护计算。
垂直联邦学习或基于特征的联邦学习(图2b)适用于两个数据集共享相同的sample ID空间,但特征空间不同的情况。例如,考虑同一城市中的两家不同的公司,一家是银行,另一家是电子商务公司。它们的用户集很可能包含该区域的大部分居民,因此它们的用户空间的交点很大。但是由于银行记录了用户的收支行为和信用评级,而电子商务保留了用户的浏览和购买历史,所以两者的特征空间有很大的不同。假设我们希望双方都有一个基于用户和产品信息的产品购买预测模型。
垂直联邦学习是将这些不同的特征聚集起来,并以一种隐私保护的方式计算训练损失和梯度,从而利用来自双方的数据协作构建模型的过程。在这样的联邦机制下,每个参与方的身份和地位都是相同的,联邦系统帮助每个人建立“共同财富”战略,这就是为什么这个系统被称为“联邦制学习“。
因此,在这样一个系统中,我们有:
安全定义。垂直联邦学习系统通常假设参与者是诚实而好奇的。例如,在两党情况下,两党是不合谋的,最多其中一个被对手妥协。安全性的定义是,攻击者只能从被破坏的客户机了解数据,而不能从其他客户机了解输入和输出以外的数据。为了促进双方之间的安全计算,有时会引入半诚实的第三方(STP),在这种情况下,假定STP不与任何一方勾结。SMC为这些协议[25]提供了正式的隐私证明。在学习结束时,每一方只持有与自身特征相关的模型参数,因此在推理时,双方也需要协作来生成输出。
2.3.3 联邦迁移学习(FTL)
联邦迁移学习适用于两个数据集不仅在样本上存在差异,而且在特征空间上也存在差异的情况。考虑两家机构,一家是位于中国的银行,另一家是位于美国的电子商务公司。由于地理位置的限制,两个机构的用户群体有一个较小的交集。另一方面,由于业务的不同,双方的功能空间只有一小部分重叠。在这种情况下,迁移学习[50]技术可以用于在联邦下为整个样本和特征空间提供解决方案(图2c)。特别地,利用有限的公共样本集学习两个特征空间之间的公共表示,然后应用于只有一侧特征的样本的预测。FTL是对现有联邦学习系统的重要扩展,因为它处理的问题超过现有联邦学习算法的适用范围:
安全的定义。联合迁移学习系统通常涉及两方面。下一节将介绍,它的协议类似于垂直联邦学习中的协议,在这种情况下,垂直联邦学习的安全定义可以在这里扩展。
2.4 联邦学习系统的架构
在本节中,我们将举例说明联邦学习系统的通用架构。请注意,水平和垂直联邦学习系统的架构在设计上有很大的不同,我们将分别介绍它们。
2.4.1 水平联邦学习。
水平联邦学习系统的典型架构如图3所示。在本系统中,k个具有相同数据结构的参与者通过参数或云服务器协作学习一个机器学习模型。一个典型的假设是,参与者是诚实的,而服务器是诚实但好奇的,因此不允许任何参与者的信息泄露到服务器[51]。这种系统的训练过程通常包括以下四个步骤:
步骤1:参与者本地计算训练梯度,用加密[51]、差分隐私[58]或秘密共享[9]技术对选定的梯度进行掩码,并将掩码结果发送到服务器;
步骤2:服务器进行安全聚合,不学习任何参与者的信息;
第三步:服务器将汇总结果发送回参与者;
步骤4:参与者使用解密的梯度更新他们各自的模型。
通过上述步骤不断迭代,直到损失函数收敛,从而完成整个训练过程。该架构独立于特定的机器学习算法(logistic回归,DNN等),所有参与者将共享最终的模型参数。安全分析。当使用SMC[9]或同态加密[51]进行梯度聚合时,证明了上述体系结构对半诚实服务器的数据泄漏具有保护作用。但在另一个安全模型中,它可能会受到恶意参与者在协作学习过程[29]中训练生成对抗网络(GAN)的攻击。
2.4.2 垂直联邦学习
假设A公司和B公司想共同训练一个机器学习模型,他们的业务系统都有自己的数据。此外,B公司还有模型需要预测的标签数据。由于数据隐私和安全的原因,A和B不能直接交换数据。为了保证训练过程中数据的保密性,我们加入了第三方合作者C。在这里,我们假设合作者C是诚实的,不与A、B双方串通,但A、B双方都是诚实的,但对彼此都很好奇。A信任C是一个合理的假设,因为C可以被权威机构如政府,或被安全计算节点,如Intel Software Guard Extensions (SGX)[7]所取代。联邦学习系统由两个部分组成,如图4所示。第1部分。加密的实体对齐。由于两家公司的用户组不相同,系统使用基于加密的用户ID对齐技术[38,56]来确认双方的普通用户,而A和B不公开各自的数据。在实体对齐期间,系统不会公开彼此不重叠的用户。第2部分。加密模型的训练。在确定公共实体后,我们可以使用这些公共实体的数据来训练机器学习模型。训练过程分为以下四个步骤(如图4所示):
图4所示。垂直联邦学习系统的架构
步骤1:合作者C创建加密对,将公钥发送给A和B;
步骤2:A和B对梯度和损失计算的中间结果进行加密和交换;
步骤3:A、B分别计算加密梯度并添加附加掩码,B也计算加密损失;
A和B将加密值发送给C;•步骤4:C解密并将解密后的梯度和损失发送回A和B;A和B打开渐变,更新相应的模型参数。
这里我们以线性回归和同态加密为例来说明训练过程。为了用梯度下降法训练线性回归模型,我们需要安全计算它的损失和梯度。设学习速率η,正则化参数λ,数据集{xA i}i∈DA, {xB i,yi}i∈DB,且对应xA i, xB i特征空间的θ a、θ b模型参数,训练目标为:
详细步骤见表1和2。在实体对齐和模型训练过程中,A和B的数据都保存在本地,训练过程中的数据交互不会导致数据隐私泄露。注:潜在的信息泄露给C可能被认为是或可能不被认为是侵犯隐私。为了进一步防止C在这种情况下从A或B学习信息,A和B可以通过添加加密的随机掩码进一步向C隐藏它们的梯度。因此,双方在联邦学习的帮助下合作训练一个共同的模型。因为在训练过程中,每一方接收到的损失和梯度与在没有隐私约束的情况下,在同一地点收集到的数据共同构建模型时所接收到的损失和梯度是完全相同的,即该模型是无损的。该模型的有效性取决于加密数据的通信开销和计算开销。在每次迭代中,A和B之间发送的信息随着重叠样本的数量而缩放。因此,采用分布式并行计算技术可以进一步提高算法的效率。
安全分析。表1所示的训练协议没有向C透露任何信息,因为所有C学习的都是掩蔽梯度,并且掩蔽矩阵的随机性和保密性都保证[16]。在上面的协议,A方每一步学习其梯度,但这是不够的一个学习任何信息从B根据方程8,因为标量积协议的安全的能力的基础上解决n n多个未知量的方程[65]。这里我们假设样本的数量NAis远大于样本的数量,其中NAis是特征的数量。同样,B方也无法从a处获取任何信息,从而证明协议的安全性。注意,我们假设双方都是半诚实的。如果一方怀有恶意,通过伪造输入来欺骗系统,例如,A方只提交了一个非零的输入,且只有一个非零特征,则可以判断该样本的该特征的fub值。测得的xB ior数据仍然无法辨别,这种偏差会扭曲下一次迭代的结果,使另一方担心,从而终止学习过程。在训练过程结束时,每一方(A或B)都不知道另一方的数据结构,它只获得与自己的特征相关的模型参数。在推理时,双方需要协同计算预测结果,步骤如表2所示,仍然不会导致信息泄漏。
2.4.3 联邦迁移学习
假设在上面的垂直联邦学习的例子,A方和B组只有一个非常小的重叠的标签样本和我们感兴趣的是学习A架构中的所有数据集在上面的部分中描述到目前为止只适用于重叠的数据集。扩大其覆盖整个样本空间,我们引入转移学习。这不会改变总体架构如图4所示的细节之间交换的中间结果AB。具体来说,转移学习通常涉及到在学习之间的一个公共表示A、B的特点,和最小化错误的标签在预测目标域党利用源领域的标签(B在这种情况下)。因此梯度的计算对于AB双方不同于垂直联邦学习场景。在推理时,仍然需要双方计算预测结果。
2.4.4 激励机制
为了充分商业化不同组织之间的联邦学习,需要建立一个公平的平台和激励机制[20]。模型建立后,模型的性能将在实际应用中体现出来,这种性能可以在一个永久的数据记录机制中记录(如区块链)。提供更多数据的组织会更好,模型的有效性取决于数据提供者对系统的贡献。这些模型的有效性分布到基于联合机制的各方,并继续激励更多的组织加入数据联合。
上述架构的实现不仅考虑了多组织协同建模的隐私保护和有效性,还考虑了如何奖励贡献更多数据的组织,以及如何通过共识机制实现激励。因此,联邦学习是一种“闭环”学习机制。
3. 相关工作
联邦学习使多方协作构建机器学习模型,同时保持他们的私人训练数据的隐私性。作为一种新颖的技术,联邦学习有几个创意线索,其中一些植根于现有的领域。下面我们从多个角度解释联邦学习与其他相关概念之间的关系。
3.1 保护隐私的机器学习
联邦学习可以被认为是一种保护隐私的分散协作机器学习,因此它与多方保护隐私的机器学习紧密相关。过去对这一领域进行了许多研究工作。例如,文献[17,67]提出了用于垂直划分数据的安全多方决策树算法。Vaidya和Clifton提出了用于垂直分割数据的安全关联挖掘规则[65]、安全k-means[66]、朴素贝叶斯分类器[64]。Ref[31]提出了一种基于水平分区数据的关联规则算法。安全支持向量机算法被开发用于垂直分区数据[73]和水平分区数据[74]。Ref[16]提出了针对多方线性回归和分类的安全协议。文献[68]提出了安全的多方梯度下降方法。以上作品均采用安全多方计算(SMC)[25,72]来保证隐私。
Nikolaenko等人[48]使用同态加密和Yao 's乱码电路在水平分割数据上实现了线性回归的隐私保护协议,参考文献[22,24]提出了垂直分割数据的线性回归方法。这些系统直接解决了线性回归问题。Ref[47]用随机梯度下降法(SGD)解决了这个问题,他们还提出了逻辑回归和神经网络的隐私保护协议。最近,一个三服务器模型的后续工作被提出[44]。Aono等人[4]提出了一种使用同态加密的安全逻辑回归协议。Shokri和Shmatikov[58]提出了利用更新参数交换水平分区数据的神经网络训练方法。Ref[51]采用了加同态加密技术来保护梯度的私密性,提高了系统的安全性。随着深度学习的最新进展,隐私保护神经网络推理也受到了很多研究兴趣[10,11,14,28,40,52,54]。
3.2 联邦学习与分布式机器学习
横向联邦学习乍一看有点类似于分布式机器学习。分布式机器学习涵盖了很多方面,包括训练数据的分布式存储、计算任务的分布式操作、模型结果的分布式分布等。参数服务器[30]是分布式机器学习的一个典型元素。参数服务器作为加速训练过程的工具,将数据存储在分布式的工作节点上,通过一个中心调度节点来分配数据和计算资源,从而更有效地训练模型。对于水平联邦学习,工作节点代表数据所有者。它对本地数据有完全的自主权,可以决定何时以及如何加入联邦学习。在参数服务器中,始终由中心节点进行控制,因此联邦学习面临着更加复杂的学习环境。其次,联邦学习强调在模型训练过程中对数据所有者的数据隐私保护。有效的数据隐私保护措施可以更好地应对未来日益严格的数据隐私和数据安全监管环境。
与分布式机器学习设置一样,联邦学习也需要处理非iid数据。在[77]中表明,使用非iid本地数据,进行联邦学习可以大大降低性能。作者在回应中提供了一个新的方法来解决类似于迁移学习的问题。
3.3 联邦学习与边缘计算
联邦学习可以看作是边缘计算的操作系统,它为协调和安全提供了学习协议。在[69]中,作者考虑了使用基于梯度下降的方法训练的通用机器学习模型。他们从理论的角度分析了分布梯度下降的收敛界,并在此基础上提出了一种控制算法,在给定的资源预算下,确定局部更新和全局参数聚合之间的最佳平衡,以使损失函数最小化。
3.4 联邦学习与联邦数据库系统
联邦数据库系统[57]是集成多个数据库单元并将集成系统作为一个整体来管理的系统。为了实现与多个独立数据库的互操作,提出了联邦数据库的概念。联邦数据库系统通常使用分布式存储存储数据库单元,而实际上每个数据库单元中的数据都是异构的。因此,在数据类型和存储方面,它与联邦学习有许多相似之处。但是,联邦数据库系统在相互交互的过程中不涉及任何隐私保护机制,所有数据库单元对管理系统是完全可见的。此外,联邦数据库系统的重点是数据的基本操作包括插入、删除、搜索、和合并,等等,而联邦学习的目的是建立一个联合模型为每个数据所有者保护数据隐私的前提下,使各种价值观和法律数据包含更好地为我们服务。
4. 应用
作为一个创新的建模机制,从多个方可以训练一个统一的模型数据这些数据隐私和安全的前提下,联邦学习有一个有前途的应用在销售、金融、和许多其他行业,训练不能直接聚合数据的机器学习模型,由于各种因素,如知识产权,隐私保护和数据安全。
以智能零售为例。其目的是利用机器学习技术为客户提供个性化的服务,主要包括产品推荐和销售服务。智能零售业务涉及的数据特征主要包括用户购买力、用户个人偏好、产品特征等。在实际应用中,这三个数据特征很可能分散在三个不同的部门或企业中。例如,从用户的银行存款可以推断出其购买力,从用户的社交网络可以分析其个人偏好,而电子商店则记录了其产品的特征。在这种情况下,我们面临两个问题。首先,对于数据隐私和数据安全的保护,银行、社交网站和电子购物网站之间的数据壁垒很难打破。因此,不能直接聚合数据来训练模型。其次,三方存储的数据通常是异构的,传统的机器学习模型不能直接处理异构数据。目前,传统的机器学习方法并没有有效地解决这些问题,阻碍了人工智能在更多领域的推广和应用。
联邦学习和迁移学习是解决这些问题的关键。首先,利用联邦学习的特点,在不导出企业数据的情况下,为三方建立机器学习模型,既能充分保护数据隐私和数据安全,又能为客户提供个性化、针对性的服务,实现互利共赢。同时,我们可以利用迁移学习来解决数据异构问题,突破传统人工智能技术的局限性。因此,联邦学习为我们构建跨企业、跨数据、跨领域的大数据和人工智能生态圈提供了很好的技术支持。
可以使用联邦学习框架进行多方数据库查询,而无需公开数据。例如,假设在一个金融应用中,我们感兴趣的是检测多方借贷,这是银行业的一个主要风险因素。当某些用户恶意从一家银行借款以偿还另一家银行的贷款时,就会发生这种情况。多方借贷是对金融稳定的威胁,因为大量的此类非法行为可能会导致整个金融体系崩溃。为了在不向银行A和银行B相互公开用户列表的情况下找到这样的用户,我们可以利用一个联邦学习框架。特别地,我们可以使用联邦学习的加密机制,对每一方的用户列表进行加密,然后在联邦中取加密列表的交集。最终结果的解密给出了多方借款者的名单,而不会将其他“良好”用户暴露给另一方。我们将在下面看到,这个操作对应于垂直联邦学习框架。
我们预计,智能医疗是另一个将从联邦学习技术的崛起中获益良多的领域。疾病症状、基因序列、医疗报告等医疗数据非常敏感和隐私,但医疗数据难以收集,存在于隔离的医疗中心和医院。数据源的不足和标签的缺乏导致机器学习模型的性能不理想,成为当前智能医疗的瓶颈。我们设想,如果所有医疗机构联合起来,共享数据,形成一个大型医疗数据集,那么在该大型医疗数据集上训练的机器学习模型的性能将得到显著提高。联邦学习与迁移学习相结合是实现这一愿景的主要途径。迁移学习可以用于填补缺失的标签,从而扩大可用数据的规模,并进一步提高训练模型的性能。因此,联合迁移学习将在智能医疗的发展中发挥关键作用,它可能会把人类医疗提高到一个全新的水平。
图5所示。数据联盟在区块链上分配利益
5. 企业联邦学习与数据联盟
联邦学习不仅是一种技术标准,也是一种商业模式。当人们意识到大数据的影响时,他们首先想到的是将数据聚集在一起,通过远程处理器计算模型,然后下载结果以供进一步使用。云计算就是在这样的需求下应运而生的。然而,随着数据隐私和数据安全日益重要,以及公司利润和数据之间的紧密关系,云计算模型受到了挑战。然而,联邦学习的商业模式为大数据的应用提供了新的范式。当各个机构所占用的孤立数据无法产生理想的模型时,联邦学习的机制使机构和企业可以在不交换数据的情况下共享一个统一的模型。此外,联邦学习在区块链技术的共识机制的帮助下,可以制定公平的利润分配规则。无论数据的规模有多大,数据拥有者都会有动力加入数据联盟,从中获利。我们认为,数据联盟的商业模式的建立和联邦学习的技术机制的建立应该共同进行。我们还将为各个领域的联邦学习制定标准,使其尽快投入使用。
6. 结论与展望
近年来,对数据的隔离和对数据隐私的强调正成为人工智能的下一个挑战,但联邦学习给我们带来了新的希望。它可以在保护本地数据的同时,为多个企业建立统一的模型,使企业以数据安全为前提,实现双赢。本文介绍了联邦学习的基本概念、体系结构和技术,并讨论了联邦学习在各种应用中的潜力。预计在不久的将来,联邦学习将打破行业之间的壁垒,建立一个数据和知识可以与安全一起共享的社区,并根据每个参与者的贡献公平分配收益。人工智能的好处最终将被带到我们生活的每一个角落。
参考文献见原文链接
笔记:
Last updated