无论对于医疗健康行业,还是对于医疗保险行业来说,健康大数据都是行业治理的基础设施和得力工具。海量数据采集自人类个体,流淌于IT系统之中。据测算,每个人一生将产生不少于605 TB(不包括任何可能和必要的数据交互),全国每年将产生超过1000 ZB的交互数据量(不包括这些数据的二次使用和复制/衍生等)。
何为健康大数据?
世界卫生组织(WHO)早已言明,健康是一种生理、心理与社会适应都臻于完满的状态,而不仅是没有疾病或虚弱。2016年,中央召开的全国卫生和健康大会指出,全方位全周期保障人民健康。 大数据是人民健康水平、国民健康战略的“晴雨表”和“指南针”。 大数据可以提高卫生健康部门、医保部门的决策精准性、精细化水平,比如:预测下一个段季节病、流行病高峰期的时点、周期、烈度,可以提前部署医疗卫生资源,避免被动挨打的“非典”(SARS)事件重演。再比如:预测近期有组织在线欺诈行为的单数、行业、架构、流程,可以针对“黑灰产”将魔手伸到医保欺诈骗保领域提前布防,避免医保基金成为“唐僧肉”。
从这一总要求出发,广义的健康大数据可以从两个维度予以定义:一是涵盖人类个体产生的所有作为健康影响因素的数据,包括:生理大数据(含基因等多组学大数据)、心理大数据、环境健康大数据、生活方式大数据,等等。二是国民健康服务、国民健康保障这两大体系所产生的数据,包括:医疗机构大数据、公共卫生大数据、健康管理大数据、医疗保障大数据、商业保险大数据,等等。
然而,我国健康大数据治理水平低、实际利用率低,难以形成健康绩效。一是多头监管:由国家卫生健康部门提出的“健康医疗大数据”(狭义健康大数据),尚未也无法将国家医保部门提出的“医保大数据”囊括其中,难以形成覆盖全生命周期、全方位需求的广义健康大数据,健康医疗大数据、养老大数据、社保医保大数据、商业保险大数据、生物多组学数据之间更是无法打通。二是数据质量低:来自智能监测设备(如:智能手环、智能血压计、智能血糖仪)的海量健康数据,在维度、精度、实时性、稳定性等方面难以达到医疗级应用,仅起到预警功能,无法用于临床诊断治疗。
有基于此,在建立数据共享开放平台的部分省份、地市,健康大数据被框定在医疗机构大数据(甚至只是医院大数据)的范围内。2018年,我国公立医院12032个,民营医院20977个。医院大数据相对定期采集、处理相对规范、应用相对成熟,是卫生健康部门、医保部门、商业机构开展行业治理的首要选择。2015年以来,国家卫生健康部门围绕系统集成、业务协同、数据互联互通、智慧医疗应用,先后开展了一系列举措。这包括:电子病历系统应用水平分级评价、医院信息平台应用功能指引、医院信息互联互通标准化成熟度测评,等等。
谁来喂饱医疗AI?
2017年,“人工智能”首次写入国务院《政府工作报告》,并上升为国家战略。国务院印发《新一代人工智能发展规划》,设置了“智能医疗”专门段落,提出:“探索智慧医院建设,开发人机协同的手术机器人、智能诊疗助手,研发柔性可穿戴、生物兼容的生理监测系统,研发人机协同临床智能诊疗方案,实现智能影像识别、病理分型和智能多学科会诊。基于人工智能开展大规模基因组识别、蛋白组学、代谢组学等研究和新药研发,推进医药监管智能化。加强流行病智能监测和防控。”
特别是在深度学习辅助诊断、辅助治疗辅助决策领域,新一代医疗人工智能技术(如深度学习、神经网络等)有助于在三个方面提升医疗卫生体系的治理绩效:(1)缓解我国专科医务人员短缺局面,为高饱和度工作减负(如:影像医生、病理医生),(2)洞察医务人员肉眼识别无法发现的高维空间影像,揭示隐藏在疑难病症之后无法感受也无法表达的“暗知识”,提高诊断准确性和治疗方案科学性。(3)将高等级医院、高年资医生的“人类智能”固化为算法模型,用人工智能赋能基层医院、低年资医生。
随着新一代人工智能在医疗领域开展应用,对健康大数据(尤其是医院大数据)提出了更高要求。
算法是人工智能产业的“皇冠”,但在临床应用环节面临着诸多未知数。自达特茅斯会议标志着人工智能诞生以来,人工智能发展经过了“三落三起”。最近一轮的人工智能崛起,深度学习、神经网络算法是其核心驱动力。由于“人命关天”的医疗决策对人工智能脆弱性、不稳定性、“算法黑箱”问题容忍度低,且许多医疗机构基于自身的医疗安全、患者隐私、医嘱知识产权等因素,不愿将医院大数据交付给自己控制范围之外的算法模型。
据国家卫生健康委统计信息中心2018年调查数据显示,仍有多达一半以上的三级医院尚未开展大数据、智能应用。据国家心血管病中心对95家医院进行的问卷调查,有超过3成医院近3年来并未在医疗人工智能方面进行投入,投入上千万元的医院仅占比5.3%。
临床大数据是训练算法模型绕不过去的坎,如果机器学习所需的“食材”连喂都喂不饱,更别说吃上精细加工后的“餐食”,这就无法让算法模型一天比一天“聪明”。大数据和人工智能行业对数据共享开放表达了困惑:一是数据共享水平有限,数据量、数据维度、数据精度受限,难以满足神经网络的算法模型训练需求。二是大部分原始数据为非结构化数据,数据的集中化、标准化、智能化程度较差,需经过数据归集、清洗、数据脱敏、数据标注等额外环节,导致算法模型训练的耗时过长、成本过高。
相关阅读: