首页 文章 个人博客 联合分析:无需数据收集的协作数据科学

联合分析:无需数据收集的协作数据科学

发布时间:2021-09-22编辑:RainNight阅读(67)

联合学习,在2017年推出,使开发人员能够训练机器学习(ML)跨不集中的数据收集许多设备型号,以保证只有用户拥有的副本他们的数据,并用于功率经验表明像接下来的话和表达的Gboard为Android和提高智能回复的质量在Android的消息. 随着这些应用程序的成功,人们越来越有兴趣使用联合技术来回答有关去中心化数据的更多基本问题——例如计算计数或速率——这些问题通常根本不涉及 ML。通过这些技术分析用户行为可以产生更好的产品,但必须确保底层数据保持私密和安全。

今天我们将介绍联合分析,将数据科学方法应用于分析本地存储在用户设备上的原始数据的做法。与联邦学习一样,它的工作原理是对每个设备的数据运行本地计算,并且只将聚合结果——而不是来自特定设备的任何数据——提供给产品工程师。然而,与联邦学习不同,联邦分析旨在支持基本的数据科学需求。这篇博文描述了为追求联邦学习而开发的联邦分析的基本方法,我们如何将这些见解扩展到新领域,以及联邦技术的最新进展如何为越来越多的数据科学需求提供更高的准确性和隐私性。

联合分析的起源

对联邦分析的第一次探索是为了支持联邦学习:当数据中心没有数据时,工程师如何根据真实世界的数据衡量联邦学习模型的质量?答案是重用联邦学习基础设施,但没有学习部分。在联邦学习中,模型定义不仅可以包括要优化的损失函数,还可以包括用于计算指示模型预测质量的指标的代码。我们可以使用此代码直接评估手机数据的模型质量。

例如,Gboard 工程师根据用户手机上保存的原始打字数据测量下一个词预测模型的整体质量。参与的手机下载了一个候选模型,在本地计算了模型预测与实际输入的单词的匹配程度的指标,然后上传了该指标,而没有对模型的权重进行任何调整,也没有对 Gboard 打字体验进行任何更改。通过对多部手机上传的指标求平均值,工程师了解了模型性能的总体水平总结。该技术还可以轻松扩展到估计数据集大小等基本统计数据。

用于歌曲识别测量的

联合分析 除了模型评估之外,联合分析还用于支持“正在播放”功能在 Google 的 Pixel 手机上,这是一种工具,可以显示您周围房间里正在播放的歌曲。在幕后,Now Playing 使用设备上的歌曲指纹数据库来识别手机附近播放的音乐,而无需网络连接。该架构对隐私和用户都有好处——它速度快,离线工作,并且没有原始或处理过的音频数据离开手机。由于一个地区的每部手机都接收相同的数据库,并且只能识别数据库中的歌曲,因此数据库保存正确的歌曲很重要。

为了衡量和提高每个区域数据库的质量,工程师需要回答一个基本问题:哪些歌曲最常被识别?联合分析提供了一个答案,而不会透露任何个人手机听到了哪些歌曲。它适用于同意向 Google 发送设备相关使用和诊断信息的用户。

当“正在播放”识别一首歌曲时,它会将曲目名称记录到设备上的“正在播放”历史记录中,用户可以在其中查看最近识别的歌曲并将它们添加到音乐应用程序的播放列表中。后来,当手机闲置、插上电源并连接到 WiFi 时,谷歌的联邦学习和分析服务器可能会邀请手机与数百个其他手机一起加入“一轮”联合分析计算。该轮中的每部手机都会计算其播放历史中歌曲的识别率,并使用安全聚合协议对结果进行加密。加密的汇率被发送到联合分析服务器,该服务器没有单独解密它们的密钥。但是,当与该回合中其他手机的加密计数相结合时,服务器可以解密所有歌曲计数的最终计数(除此之外别无其他)。

结果使 Google 工程师能够改进歌曲数据库(例如,通过确保数据库包含真正流行的歌曲),而无需任何电话透露听过哪些歌曲。在第一次改进迭代中,这导致全球所有 Pixel 手机的整体歌曲识别率提高了 5%。

使用安全聚合保护联合分析

安全聚合可以为联合分析应用程序提供更强的隐私属性。为了直观地了解安全聚合协议,请考虑歌曲识别测量问题的更简单版本。假设 Rakshita 想知道她的朋友 Emily 和 Zheng 听一首特定歌曲的频率。艾米丽已经听过S艾米丽次和郑S郑次,但他们都不愿意与 Rakshita 或彼此分享他们的计数。相反,三人可以执行安全聚合:Emily 和 Zheng 会面决定一个随机数M,他们对 Rakshita 保密。Emily 向 Rakshita 显示和S Emily + M,而 Zheng向 Rakshita显示差S Zheng - M。Rakshita 看到两个实际上是随机的数字(它们被M屏蔽),但她可以将它们加在一起 ​​( S Emily + M ) + ( S Zheng - M ) = S Emily+ S Zheng显示 Emily 和 Zheng 听到这首歌的总次数。

这种方法的隐私属性可以通过对更多人进行求和或通过向计数添加小的随机值(例如支持差异隐私)来加强。对于“正在播放”,数百台设备的歌曲识别率汇总在一起,然后再向工程师显示结果。

file

迈向具有更高隐私性

的学习和分析联合分析的方法是一个活跃的研究领域,并且已经超越了分析指标和计数的范围。有时,使用联合学习训练 ML 模型可用于获取有关设备上数据的汇总见解,而无需任何原始数据离开设备。例如,Gboard 工程师想要发现用户经常输入的新单词,并将它们添加到用于拼写检查和输入建议的词典中,而所有这些都无法看到用户输入的任何单词。他们通过训练一个字符级的循环神经网络来做到这一点在手机上,只使用在这些手机上输入的、尚未出现在全球词典中的词。没有键入的单词离开手机,但生成的模型可以在数据中心中用于生成频繁键入的字符序列的样本 - 新单词!

我们还在开发技术来回答分散数据集上更模糊的问题,例如“我的模型难以识别数据中的哪些模式?”通过训练联邦生成模型。我们正在探索应用用户级差异私有模型训练的方法,以进一步确保这些模型不会对任何用户独有的信息进行编码。

Google 对隐私原则的承诺意味着推动保护用户数据的最新技术,无论是通过数据中心的差异化隐私还是数据收集期间隐私的进步。Google 最早的去中心化数据分析系统 RAPPOR于 2014年推出,从那时起,即使存在大量噪音(通常为本地差异隐私而引入),我们也学到了很多关于做出有效决策的知识。联合分析继续这方面的工作。

联合分析方法仍处于早期阶段,需要取得更多进展才能准确地回答许多常见的数据科学问题。联邦学习的最新进展和开放问题论文提供了对联合研究的全面调查,而具有差异隐私的联合重击发现引入了一种联合分析方法,用于发现数据集中最频繁的项目。联合分析使我们能够以不同的方式思考数据科学,其中去中心化数据和隐私保护聚合处于核心地位。我们欢迎这个新兴领域的新贡献和扩展。

网盘推荐

微信公众号

书籍标签