医疗“人工智能”时代，健康大数据要怎么管、怎么用？_大数据技术

vmUruq6

无论对于医疗健康行业，还是对于医疗保险行业来说，健康大数据都是行业治理的基础设施和得力工具。海量数据采集自人类个体，流淌于IT系统之中。据测算，每个人一生将产生不少于605 TB（不包括任何可能和必要的数据交互），全国每年将产生超过1000 ZB的交互数据量（不包括这些数据的二次使用和复制/衍生等）。

何为健康大数据？

世界卫生组织（WHO）早已言明，健康是一种生理、心理与社会适应都臻于完满的状态，而不仅是没有疾病或虚弱。2016年，中央召开的全国卫生和健康大会指出，全方位全周期保障人民健康。大数据是人民健康水平、国民健康战略的“晴雨表”和“指南针”。大数据可以提高卫生健康部门、医保部门的决策精准性、精细化水平，比如：预测下一个段季节病、流行病高峰期的时点、周期、烈度，可以提前部署医疗卫生资源，避免被动挨打的“非典”（SARS）事件重演。再比如：预测近期有组织在线欺诈行为的单数、行业、架构、流程，可以针对“黑灰产”将魔手伸到医保欺诈骗保领域提前布防，避免医保基金成为“唐僧肉”。

从这一总要求出发，广义的健康大数据可以从两个维度予以定义：一是涵盖人类个体产生的所有作为健康影响因素的数据，包括：生理大数据（含基因等多组学大数据）、心理大数据、环境健康大数据、生活方式大数据，等等。二是国民健康服务、国民健康保障这两大体系所产生的数据，包括：医疗机构大数据、公共卫生大数据、健康管理大数据、医疗保障大数据、商业保险大数据，等等。

然而，我国健康大数据治理水平低、实际利用率低，难以形成健康绩效。一是多头监管：由国家卫生健康部门提出的“健康医疗大数据”（狭义健康大数据），尚未也无法将国家医保部门提出的“医保大数据”囊括其中，难以形成覆盖全生命周期、全方位需求的广义健康大数据，健康医疗大数据、养老大数据、社保医保大数据、商业保险大数据、生物多组学数据之间更是无法打通。二是数据质量低：来自智能监测设备（如：智能手环、智能血压计、智能血糖仪）的海量健康数据，在维度、精度、实时性、稳定性等方面难以达到医疗级应用，仅起到预警功能，无法用于临床诊断治疗。

有基于此，在建立数据共享开放平台的部分省份、地市，健康大数据被框定在医疗机构大数据（甚至只是医院大数据）的范围内。2018年，我国公立医院12032个，民营医院20977个。医院大数据相对定期采集、处理相对规范、应用相对成熟，是卫生健康部门、医保部门、商业机构开展行业治理的首要选择。2015年以来，国家卫生健康部门围绕系统集成、业务协同、数据互联互通、智慧医疗应用，先后开展了一系列举措。这包括：电子病历系统应用水平分级评价、医院信息平台应用功能指引、医院信息互联互通标准化成熟度测评，等等。

谁来喂饱医疗AI？

2017年，“人工智能”首次写入国务院《政府工作报告》，并上升为国家战略。国务院印发《新一代人工智能发展规划》，设置了“智能医疗”专门段落，提出：“探索智慧医院建设，开发人机协同的手术机器人、智能诊疗助手，研发柔性可穿戴、生物兼容的生理监测系统，研发人机协同临床智能诊疗方案，实现智能影像识别、病理分型和智能多学科会诊。基于人工智能开展大规模基因组识别、蛋白组学、代谢组学等研究和新药研发，推进医药监管智能化。加强流行病智能监测和防控。”

特别是在深度学习辅助诊断、辅助治疗辅助决策领域，新一代医疗人工智能技术（如深度学习、神经网络等）有助于在三个方面提升医疗卫生体系的治理绩效：（1）缓解我国专科医务人员短缺局面，为高饱和度工作减负（如：影像医生、病理医生），（2）洞察医务人员肉眼识别无法发现的高维空间影像，揭示隐藏在疑难病症之后无法感受也无法表达的“暗知识”，提高诊断准确性和治疗方案科学性。（3）将高等级医院、高年资医生的“人类智能”固化为算法模型，用人工智能赋能基层医院、低年资医生。

随着新一代人工智能在医疗领域开展应用，对健康大数据（尤其是医院大数据）提出了更高要求。

算法是人工智能产业的“皇冠”，但在临床应用环节面临着诸多未知数。自达特茅斯会议标志着人工智能诞生以来，人工智能发展经过了“三落三起”。最近一轮的人工智能崛起，深度学习、神经网络算法是其核心驱动力。由于“人命关天”的医疗决策对人工智能脆弱性、不稳定性、“算法黑箱”问题容忍度低，且许多医疗机构基于自身的医疗安全、患者隐私、医嘱知识产权等因素，不愿将医院大数据交付给自己控制范围之外的算法模型。

据国家卫生健康委统计信息中心2018年调查数据显示，仍有多达一半以上的三级医院尚未开展大数据、智能应用。据国家心血管病中心对95家医院进行的问卷调查，有超过3成医院近3年来并未在医疗人工智能方面进行投入，投入上千万元的医院仅占比5.3%。

临床大数据是训练算法模型绕不过去的坎，如果机器学习所需的“食材”连喂都喂不饱，更别说吃上精细加工后的“餐食”，这就无法让算法模型一天比一天“聪明”。大数据和人工智能行业对数据共享开放表达了困惑：一是数据共享水平有限，数据量、数据维度、数据精度受限，难以满足神经网络的算法模型训练需求。二是大部分原始数据为非结构化数据，数据的集中化、标准化、智能化程度较差，需经过数据归集、清洗、数据脱敏、数据标注等额外环节，导致算法模型训练的耗时过长、成本过高。

相关阅读：

大数据与实体经济深度融合全国行首站贵阳启动

阿里云飞天大数据平台亮相，中国唯一自主研发、集群规模世界第一