开源平台支持隐私保护机器学习研究
密歇根大学的研究人员已开源发布了迄今为止最大的基准数据集,用于机器学习技术的设计并考虑到数据隐私。这种称为联合学习的方法在最终用户设备(如智能手机和笔记本电脑)上训练学习模型,而不需要将私人数据传输到中央服务器。
“通过在生成数据的地方进行现场训练,我们可以在更大的真实世界数据上进行训练,”UM 计算机科学与工程博士生 Fan Lai 解释说,他在国际机器学习会议上展示了 FedScale 训练环境本星期。
“这也使我们能够减轻与将原始数据从最终用户设备收集到云中相关的隐私风险以及高昂的通信和存储成本,”赖说。
联邦学习仍然是一项新技术,它依赖于一种充当集中协调器的算法。它将模型交付给设备,在相关用户数据上对其进行本地训练,然后将每个经过部分训练的模型带回并使用它们生成最终的全局模型。
对于许多应用程序,此工作流程提供了额外的数据隐私和安全保护。消息应用程序、医疗保健数据、个人文档和其他敏感但有用的培训材料可以改进模型,而不必担心数据中心漏洞。
除了保护隐私外,联邦学习还可以通过减少甚至消除大数据传输来使模型训练更加资源高效,但在广泛使用之前它面临着一些挑战。跨多个设备进行培训意味着无法保证可用的计算资源,并且用户连接速度和设备规格等不确定性会导致数据选项池质量参差不齐。
“联邦学习作为一个研究领域正在迅速发展,”密歇根大学计算机科学与工程副教授 Mosharaf Chowdhury 说。“但大部分工作都使用了少数数据集,这些数据集非常小,并不代表联邦学习的许多方面。”
这就是 FedScale 的用武之地。该平台可以在几个 GPU 和 CPU 上模拟数百万用户设备的行为,使机器学习模型的开发人员能够探索他们的联合学习程序将如何执行,而无需大规模部署。它服务于各种流行的学习任务,包括图像分类、对象检测、语言建模、语音识别和机器翻译。
“任何在最终用户数据上使用机器学习的东西都可以联合起来,”Chowdhury 说。“应用程序应该能够学习和改进它们提供服务的方式,而无需实际记录用户所做的一切。”
作者指定了几个必须考虑的条件才能真实地模拟联邦学习体验:数据的异质性、设备的异质性、异质的连接性和可用性条件,所有这些都能够在各种机器学习任务上以多尺度运行。Chowdhury 表示,FedScale 的数据集是迄今为止发布的最大的数据集,专门针对联邦学习中的这些挑战。
“在过去的几年里,我们收集了几十个数据集。原始数据大多是公开的,但很难使用,因为它们有各种来源和格式,”赖说。“我们也在不断努力支持大规模的设备上部署。”
FedScale 团队还推出了排行榜,以推广在 UM 系统上训练的最成功的联邦学习解决方案。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
6月25-28日,由中国进出境生物安全研究会、中国国际旅行卫生保健协会主办,中国青年创业就业基金会支持,中国出入...浏览全文>>
-
胃肠镜检查,听起来可能有些令人不安,但实际上,它可能是生活中的救命稻草。对于一些人来说,定期进行胃肠镜...浏览全文>>
-
6月16日-20日,2025年优秀博士后研究人员(绍兴)研学活动顺利举行。本次活动汇聚了来自全国各地的百余名博士后,...浏览全文>>
-
近日,天津松果生物医疗科技有限公司自主研发的牛跟腱来源去端肽I型胶原蛋白原材料成功通过国家药品监督管理局...浏览全文>>
-
在数字化产业转型的浪潮奔涌之际,病理学正经历着前所未有的革新机遇。奥伟登(Evident)凭借百年光学技术积淀,以...浏览全文>>
-
6月6-8日,CHINAGUT 2025中国肠道大会在宁波国际会议中心隆重举办。大会由南京医科大学第二附属医院、国家消化...浏览全文>>
-
在第28届北京国际口腔展这一行业风向标级盛会上,北京易岭生物科技有限公司(下面简称易岭生物)凭借重磅新品发...浏览全文>>
-
2025款上汽大众ID 4 X在安徽阜阳地区的售价会根据配置和选装包有所不同。基础版车型的厂商指导价大约在20万...浏览全文>>
-
岚图FREE,作为一款集豪华与智能于一体的新能源SUV,正以全新的姿态迎接每一位渴望高品质出行的用户。现在,岚...浏览全文>>
-
安徽阜阳的大众ARTEON 2022新款现已到店,最低售价从34 80万元起,无疑是近期购车的最佳时机。这款车型以其...浏览全文>>