中国乳腺癌标准数据库“大揭秘”——今天来聊聊“数据质量怎么抓?”

2022-03-25 17:01

数据质量是数据治理的重要标尺,也是数据利用的基石。经过医院多年的医疗信息化建设,我国已拥有庞大的医疗数据基础,并广泛应用于临床决策支持、医学研究、药物研究、智能辅诊等领域。

与此同时,医疗数据应用问题逐渐浮现:医疗数据质量不高、结构化程度不足、数据分散,导致数据可用性低,制约医疗健康大数据智能分析应用。

中国乳腺癌标准数据库将多源异构数据采集、整合、治理,形成科研可用数据资产。在数据治理的过程中,尤其重视数据质量问题。以标准化数据质量评价体系的构建、数据质量闭环调优、数据质量可视化呈现等,不断提高数据可用性,为临床科研应用保驾护航。


(一) 医疗数据治理常见的数据质量问题

• 数据完整性不足:数据分散在不同系统中,数据孤岛问题突出;临床医生病历书写标准不统一、不完整。

• 数据结构化程度不足:文档、影像等非结构化数据多,数据异源异构。

• 术语标准化不足:同个医学术语不同码、不同名。

• 数据逻辑错误:男性患者有子宫疾病诊断,女性患者有前列腺疾病诊断等。

• 数据录入差错:同一事实在不同记录中不一致;纸张记录与电子记录不一致。

• 数据质量体系不完善:数据质量校验体系不完善,人工核查易遗漏。


(二)中国乳腺癌标准数据库的数据质量管理解决方案

2.1 数据质量评价体系标准化

数据量、变量数、有效性、时效性、完整性、随访完整度六大维度构建数据质量评价体系,对数据库的科研样本量和疾病特征变量,数据真实性、时效性以及随访数据完整性等等方面做出具体要求。


2.2 数据质量闭环调优

以专病数据模型为基础的智能AI质控与人工数据稽查双管齐下,实现数据质量控制的闭环管理。

针对要重点质控的字段,采用定量、定性综合校验方法,提供多维质量监控、问题质疑功能,协助发现完整性、有效性、准确性等数据质量问题。质控员可在系统中质疑数据准确性,录入员/随访员提供证明或修改变量值来回复质疑、做出调整,从而稳步提升数据质量。




2.3 数据质量可视化

中国乳腺癌标准数据库与业务系统集成,实现数据质量展现和分析,为用户提供质量标准自主设定,质量数据多维查看、关键指标统计分析,相关操作记录和报表输出等功能。通过可视化呈现数据质量,满足科研人员深入探索多维度、多指标数据的需求。

(1)“数据检索”

在“数据检索”模块,以图形报表展示检索结果的数据质量,图形报表联动显示。用户可通过图表的相互关系,深入钻取分析,层层穿透找到问题。支持用户数据质量标准自主设定,高于或低于该标准标注显示,强化用户对数据质量提升的显性感受。



(2)“数据管理”

在数据库“数据管理”模块,以数据概览模式展示全局数据质量,支持自由切换变量维度和患者维度。用户可从“性别”、“年龄”、“早期患者”、“晚期患者”、“患者逐年趋势”、“变量完整度”、“患者完整度”、“患者准确度”等多维度查看数据质量。

出现患者数据缺失或字段数据缺失时,录入员可查看缺失数列表,点击定位至具体缺失字段进行补录,实时跟踪数据填报完整性与缺失变量情况。




(3)“数据网管”

在数据库“数据网管”模块,对每次数据采集、数据共享和业务节点(修改、读取、调用、导出等)均保留记录,每日0点自动生成或手动添加报表,支持一键导出,保证专病库数据所有来源和使用操作清晰可溯源。

4随访数据无缝集成,补足终点事件数据

中国乳腺癌标准数据库搭载高性能科研随访平台,与多模态专病数据库无缝集成,数据实时更新、准确流转。通过强大的CRF自定义工具、规范的随访管理设置,可在更好地保护受试者隐私和权益的同时,有效提高随访过程管理水平,在源头上保证随访过程的数据质量。


人工智能发展带来医疗变革,高质量数据是推动医疗科研水平高速发展的关键。中国乳腺癌标准数据库通过标准化、可视化的数据质量闭环管理,严抓“数据质量关”,力求以高质量的乳腺癌多模态数据,助推临床科研产出,并为乳腺癌医疗工作人员提供面向人工智能的下一代研究环境。


联系我们