中国乳腺癌标准数据库“大揭秘”——联邦学习如何保障多中心数据安全共享?

2022-03-11 17:01

2022年全国两会上,全国政协委员、中国工程院院士、上海交通大学转化医学研究院院长陈赛娟建议:

1.建立国家级重大疾病专病数据库平台,制定专病数据集标准;

2.提升重大疾病专病数据质量,多学科人员共同参与;

3.探索重大疾病专病数据共享机制,完善相关政策支持。


健康数据作为唯一技术支持和运营管理服务提供商,参与国家卫生健康委医院管理研究所中国乳腺癌诊疗能力提升项目,创建中国乳腺癌标准数据库。该项目正是旨在以标准化、高质量、可共享的专病大数据,助力乳腺癌多中心科研协作水平与诊疗能力的全面提升。


本期“大揭秘”,为您揭晓:在中国乳腺癌标准数据库的建设中,是如何借助联邦学习技术实现医疗数据共享应用的?


《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》的相继实施,标志着数字经济发展和治理迈入新阶段,个人隐私和数据安全将得到更严密的保护。


医疗数据具有样本量大、维度丰富、价值高的特点,将其用于临床科研,可通过高质量科研成果反哺临床,为疾病治疗提供更准确、更快速的诊疗决策。


如何通过合理有效的数据隐私保护方式实现医疗数据的共享应用?借助联邦学习技术可以打破此困局。


一、联邦学习破解数据协作难题

Q:什么是联邦学习?如何应用于多中心科研场景?

A:联邦学习本质上是一种带有隐私保护、安全加密技术的分布式机器学习框架。它能做到在数据不出本地的情况下,通过安全机制交互模型参数,将分散在各医疗机构的数据进行共享应用和机器学习联合建模,从而达到协同训练的效果,即“数据可用不可见”。

Q:联邦学习的分类有哪些?有什么价值?

A:联邦学习按照数据在特征空间和样本ID空间的重叠关系不同,分为横向联邦学习,纵向联邦学习和联邦迁移学习。


(一)横向联邦学习

横向联邦学习本质上是样本的联合,适用于业态相同但触达客户不同的场景。当数据集A和数据集B在特征维度重叠多、样本维度重叠少时,把数据集横向(用户维度)切分,取出用户特征相同而用户不完全相同的数据进行模型训练。例如,在专病科研中,每家医院的患者来自不同地区,但它们记录的用户特征(诊断、用药、检验、检查等)相似。此时,我们可以使用横向联邦学习来构建联合模型。




(二)纵向联邦学习

纵向联邦学习本质上是特征的联合。当数据集 A 和数据集 B 在样本维度重叠多、特征维度重叠少时,把数据集纵向(特征维度)切分,取出用户相同而用户特征不完全相同的数据进行训练。如同一地区的保险和医疗机构,用户来自同一地区,但保险机构记录保险购买和赔付信息,医院记录的诊断、用药、手术等信息。纵向联邦学习将不同特征在加密的状态下加以聚合,以增强模型能力。




(三)迁移联邦学习

迁移联邦学习在两个数据集的用户与特征重叠较少的情况下,解决数据不足的问题。联邦迁移学习常用在推荐算法,比如有银行和电商平台两个不同机构,电商平台在向新用户推荐商品时,会根据用户银行数据和行为等数据推荐合适的商品。




二、中国乳腺癌标准数据库联邦学习应用实践

受不同患者的生活方式、地域环境,各地区医疗水平差异影响,乳腺癌治疗也会存在差异。在乳腺癌临床科研场景下,单中心科研往往存在样本量不足的局限。


中国乳腺癌标准数据库通过多模态数据治理、联邦学习、区块链等技术和框架,打造了覆盖全国的新一代乳腺癌科研协作环境。联邦学习满足用户隐私保护、数据安全的需求,区块链技术可以记录数据变更情况,便于监管与溯源,为科研人员提供通用、便捷、高效的科研数据平台。


(一)

平台采用分布式架构,通过横向联邦学习,按样本维度切分,在各参与医院之间开展高效率的机器学习模型训练,扩大了科研样本量、增加了数据维度,为临床科研提供高质量的数据支撑。


乳腺癌多中心科研过程中,医疗数据始终停留在医院端,医院按联邦学习算法进行本地建模,再通过参数传递,将本地模型训练结果上传至全国端中心进行汇总,形成全局模型,从而达到协同训练的效果。




(二)

在乳腺癌项目中,联邦学习模型用于样本分类与回归预测等数据价值挖掘。科研人员利用治理后的结构化、标准化数据,自定义选择横向逻辑回归、横向线性回归、横向深度神经网络等算法模型进行分发训练,导出可视化分析报告,为科研灵感激发、科研课题设计提供参考,形成数据闭环。




新兴技术的发展,为乳腺癌治疗决策注入了活力。联邦学习技术的应用,实现了多中心的数据安全共享,临床医生可获得更多样本、更多维度的数据,用于真实世界研究,全方位深入挖掘数据价值,辅助临床诊疗、拓展科研思路、提高科研效率。我们将陆续介绍中国乳腺癌标准数库中的核心能力,紧贴科研需求,助力乳腺癌诊疗能力提升。


联系我们