“1*数智中台+6*核心能力”,健康数据专病科研大数据解决方案

2021-12-10 17:13

随着健康中国战略的稳步实施,精准医学、智慧医疗等关键技术的不断突破,专病大数据将成为医疗研究发展的新动力。2018年4月,国家卫生健康委印发《全国医院信息化建设标准与规范(试行)》,提出“要利用人工智能、大数据平台等先进技术进行临床医疗数据的处理与研究,实现医疗数据来源于患者,服务于患者”。“十四五”起航,数据中心将进一步夯实,医疗大数据的重要性及潜在价值不言而喻,大数据平台建设已成为各大医疗机构的迫切需求。


如何建设数据驱动的一体化科研平台,保障大数据临床研究结果的产出,健康数据已探索出一条切实可靠的路径:

依托自主设计研发、面向智慧医疗的数智中台,涵盖多模态数据采集、数据标注治理、数据分析建模、数据安全管理、数据共享交换、数据能力开放等核心技术模块,即“1*数智中台+6*核心能力”,可打造院内(单中心)一体化科研平台,加速科研产出和科室学科建设;亦可构建多中心科研合作体系,在严格保障信息安全和知识产权的前提下,提升研究质量。


01

多模态数据整合治理,

构建高维度专科单病种数据库

近十年来国家自然基金项目医学科学类中,关于多模态医学研究项目数量逐年稳步增多,资助金额也呈增长趋势。医学科学研究从“精准医学”迈向“高维度”医学大数据,通过纳入更丰富的影响因素(基因、微生物生态、环境暴露、行为等等)来找寻更多的问题解决方法。



通过建设基于人工智能的全院级一体化科研平台,健康数据可面向医院重点专科提供给临床科研数据采集、存储和分析服务。对医院原有临床业务系统中海量的半结构化、非结构化数据,包括病历文本、病理影像报告,乃至生物组学等等,进行多模态数据的整合治理。


针对非结构化、半结构化的文本数据,采用自然语言处理(NLP)技术,结合各类专病数据模型,进行颗粒化、后结构化处理,使得数据结构化、标准化和归一化,并自动填入自定义的CRF表单中。每一次高质量NLP算法模型的训练,都从医学标注开始,经历计算机算法学习,结果核验,算法调整和再标注的闭环调优过程。



针对非结构化的医学影像数据,以识别、分割和解析、转换为核心任务。首先通过对影像数据进行实体识别和关系抽取标注,形成训练集(同时,记录已标注数据避免数据重复)。再基于深度学习算法(CNN)针对图像标注的特殊结构进行训练,形成结构化数据,并通过关联患者主索引(EMPI)等方法实现入库。纸质报告可通过OCR工具辅助进行多模态数据转化,扫描质量不一时,后续还会进行人工核验后结构化处理入库。


临床文本数据在后结构化、标准化后存储到 OMOP(通用数据模型),影像数据按DICOM格式,病理按SVS格式,基因数据按FASTQ格式储存。并在“全息视图”模块实现数据总览,应用于调阅查看、结果导出和多模态数据统计分析。



02

实现数据质控闭环管理,

严抓“数据质量关”

数据质量是数据治理的一把重要标尺,也是数据利用的基石。切实提升数据质量也需要顶层设计,要从构建数据质量评价体系、“狠抓”数据源头到持续调整优化,形成有效的数据质控闭环管理。

(1)数据质量控制标准化:是要以数据量、变量数、有效性、时效性、完整性、随访完整度,六大维度构建数据质量评价体系,以专病数据模型为基础的智能AI质控与人工数据稽查双管齐下,实现数据质量控制的标准化。针对要重点质控的字段,采用定量、定性综合校验方法,提供多维质量监控、问题质疑功能,协助发现完整性、有效性等数据质量问题。

(2)数据质量控制可视化:一方面是在“数据概览”模块以图形报表展示数据库数据质量,支持用户自主设定数据质量标准,高于或低于该标准可标注显示,强化用户对数据质量提升的显性感受;另一方面,在“数据网管”模块,对每次数据采集、数据共享和业务节点(修改、读取、调用、导出等)均保留记录,每日0点自动生成或手动添加报表,支持一键导出,保证专病库数据所有来源和使用操作清晰可溯源。



(3)随访数据无缝集成,补足终点事件数据

我国随访研究起步较晚,标准不足,常常造成原始信息数据采集不足的现象,积累许多病例但分析总结时发现数据残缺不全。采取正确的方式对随访数据进行收集、整理、统计、分析,使随访研究资料完整、结果可靠,对数据库中数据完整度的提升具有重要意义。

健康数据一体化科研平台搭载的高性能科研随访平台,可在更好地保护受试者隐私和权益的同时,有效提高随访过程管理水平,在源头上保证随访过程的数据质量。

更简单的随访设计:通过强大的CRF自定义工具、标准化数据字典,支持用户在CRF默认表基础上,对需要收集的数据项进行增/改/删,或选择多种收集方式(如:选择、填空、计算、文本、基础信息等);

更高效的随访管理:设置随访计划、随访日程和随访模板管理,三大核心功能模块支持用户及时跟进患者情况和规范地进行随访,有效提升随访效率和随访质量;

更优质的随访数据:以数据质量为“立足之本”的健康数据依托自身高素质医学团队,已组建起随访人才队伍,逐步形成标准化的《数据采集标准操作流程》、《数据库填报指南》、《随访标准操作流程》等规范文件。再结合标准化的数据质量控制,可全方位保障随访数据质量;

更实时的数据分析:支持数据直接引用,CRF自动填充。科研随访平台与多模态专病数据库无缝集成,数据实时更新、准确流转。


03

赋能真实临床科研场景,

打造极致用户体验

真实场景见证医疗大数据与人工智能的价值奇迹。把握好科研流程中,特定场景的用户需求是实现应用落地的基础。健康数据专病科研一体化平台从临床科研链路着手,从科研灵感的发现、初步调研验证、科研立项、圈定目标人群、观测指标建立、数据收集统计、到文章撰写,给予临床医生一站式科研流程支持。

(1) 智能检索,秒级锁定查找对象:

基于大数据架构的设计可有效优化传统检索复杂低效的问题,以全文搜索、结构化搜索、分词搜索、模糊搜索以及复合搜索等多种应用模式,在各种复杂场景下表现出强健的搜索性能。

全文检索:提供便捷的快速关键词检索入口,通过医学专业字典分析、切词等技术处理,检索符合请求条件的病历结果;

队列检索:根据逻辑关系“并且”、“或者”、“排除”进行灵活组合,便于检索多个复杂条件限定的研究人群,支持查询条件保存,满足条件的新病历自动入组;

指标定义检索:提取研究指标(特征),对指标数据进行预处理,达到统计分析等可以直接使用的理想数据,生成检索结果、指标统计和数据质控,并可一键收藏或保存到“我的研究”进行随访。



(2)智灵向导,360°患者全息视图:

360°患者全息视图是以医院业务系统数据为基础、以患者为核心,把患者基本资料、临床诊疗、检验检查等信息进行规范化整理和存储,再统一浏览和展示,打破数据孤岛,实现系统间数据互联互通。不同以往对患者信息的罗列,健康数据一体化科研平台在应用上二次创新,通过重构时序模型,实现患者全诊疗活动浏览,帮助医护工作者快速聚焦想要关注的特征数据。

全量时间轴:作为整体患者全景应用中总领全局的模块,能够在大数据平台的基础上建立时序模型。通过将患者的历次检查数据按照时间顺序和不同类型进行陈列,辅助医护工作者快速调阅并解读患者情况变化。其中,检验模块还可将某患者检验的历史全量数据按照趋势图展示,亦可添加更多的指标进行趋势对比等;

相似病例:算法自动匹配病例特征,筛选相似病例,协助医护工作者查看重点关注疾病特征的相似人群诊疗活动。



(3)智慧分析,基于R语言的统计分析和预测平台:

健康数据一体化科研平台基于R语言研发了一套属于医学研究人员的灵活易用的统计工具,支持多种数据可视化(散点图、直方图、箱线图、茎叶图、核密度图、条形图、饼图、P-P/Q-Q 图、ROC 曲线、热图等);支持多种统计方法(频数、描述、分类汇总、t 检验、正态性检验、方差齐性检验、卡方检验、非参数检验、方差分析、logistic 回归、Cox 回归、Kaplan-Meier、Poission 回归等);支持多种数据处理方式(修改变量名、样本筛选、变量筛选、无效值/异常值处理)。



零门槛,简单易懂的操作步骤,指导用户快速得出分析结果,并自动生成分析报告用于论文发表或临床指导,实现平台数据闭环。



04

严格守护数据安全,

从“单中心”迈向“多中心”

(1)单中心数据安全管理

对于单中心的院级专病科研一体化平台的数据应用而言,由于平台集成了医院所有医疗信息系统的患者信息,数据体量大;同时,应用在使用时因为可以直接主动访问平台数据,导致数据泄露风险增大。

通过数据脱敏、数据加密机制,替换数据中的敏感信息,或者对数据中的敏感信息进行变形等处理,使得处理后的数据看似真实,却不会暴露任何敏感信息;

通过数据权限分级管理、按需分配,申请下载需审核人员审核,审核流程由科室设置;

通过系统院内部署,内网环境开发,与外界网络不直接互通,有效保障院内数据不外流,所有的院内数据均存储在医院的核心机房,接受统一监管。



(2)多中心数据共享安全协作

2017 年国家成立 32 个国家临床医学研究中心,联合了全国约260个地级市的 2100 余家的各级医疗机构,形成了心血管、神经系统、恶性肿瘤、呼吸等 9 大疾病领域的高水平临床研究平台和协同创新网络。多中心科研协作早已是大势所趋,但数据安全隐患也让诸多医疗单位望而却步。

健康数据多中心科研大数据平台采用区块链+联邦学习架构安全合规地联通各医院数据,可提高数据使用安全性和公平性。



区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。通过实时记录用户数据上传、用户数据被使用的次数、从而记录用户对系统数据的贡献度,直接计算出用户可使用数据的范围值,达到数据的贡献与数据的使用的绝对平等。联邦学习技术的应用则可将数据停留在医院端,通过不转移数据而转移计算的能力,解决数据在不可信环境下的协作生产问题。

疾病注册和随访数据采用分布式采集、集中存储和授权使用模式,保证原始临床数据自主性。从而严格保护患者数据安全、隐私安全以及各医院临床数据知识产权;协作单位共同制定数据使用和安全管理规范,充分保障分中心机构自主权益。数据使用严格授权、公平分配,从而以最小颗粒度的数据权限控制,最大限度地发挥数据价值。



05

应用落地,

以数据科技践行健康中国

2020年10月,由国家卫生健康委医院管理研究所立项,中国科学院宋尔卫院士牵头的“中国乳腺癌诊疗能力提升项目”正式启动。健康数据作为唯一技术支持和运营管理服务提供商参与其中,着手建设“中国乳腺癌标准数据库”,逐步构建覆盖全国的区块链+AI多模态专病科研协作平台。

目前,中国乳腺癌标准数据库已入库40000+病例,子系统部署在中山大学孙逸仙纪念医院、解放军总医院第五医学中心、中国医学科学院肿瘤医院等等超过30家大型三甲医院,分布于全国15个省份,覆盖60%人口,44%国土面积。

入库数据类型涉及多模态病理、影像、基因数据,标准数据集构建字段1000余个。数据完整度提升50%,数据质量提升30%,数据及时率提升200%,数据分析效率提升150%。乳腺癌专病模型可应用于基于流行病学特征的乳腺癌早筛预测和5年生存率预测。



健康数据一体化科研平台的架构设计和应用落地正不断在实践中得到验证,并被不断调优。其建设将为院方带来巨大价值:

沉淀高质量数据资产:以疾病为单元,构建覆盖患者全病程数据的高纬度科研数据库。通过自然语言处理、机器学习等数据科技以及严格的数据质量控制,将多源异构的临床、组学、病案、随访与行为等数据,转化为标准化的与临床科研高度适配的高质量数据内容,为院方数据应用奠定坚实的数据基础;

加速学科建设,打造一流研究型科室:智能化临床研究分析平台的建设将显著提高医生科研效率,降低临床研究门槛,提升科室乃至全院科研积极性。此举将加速科室研究型人才培养,促进科室学科发展,推进一流研究型科室建设;

建设数据驱动型医学研究新高地:在大数据与人工智能科技的催化下,现代医学研究范式正在悄然转变,例如以真实世界研究(RWS)为代表的基于大数据的研究理念正越来越多地受到医疗卫生领域的关注。高质量多维立体数据与智能化研究分析平台将支撑对多类别研究任务,协助医生探索“数据驱动”的医疗研究新路径,为进一步的人工智能研究提供必要环境。


联系我们