医疗大数据的分析方法学(一) - 疾病风险调整方法学 - 中科厚立信息技术（成都）有限公司

医疗大数据的分析方法学(一)

日期：2020-07-22 10:33:28 浏览次数：

现代医院管理的重要发展方向在于更多的利用数据化工具来减少主观人为判断带来的偏差。随着现代统计学的发展，很多先进的统计技术被应用到诸如金融，军事等各个领域，其中医疗信息化更是近年来的一个热门方向。如果将医院的历史数据进行合理的分类和整理，其中很多重要的信息都能够对未来个体病人住院的一些重要方面进行合理的量化分析，甚至可以达到精确的统计预测。

住院病人的主要关注方面一般包括死亡率，住院天数和医疗的成本等方面。这些重要方面的结果分析可以被用来比较不同医生，科室和医院的医疗表现。每个病人入院的各种自身和检测信息如果有较为详细的记录和备份，这些历史数据可以被很好的运用来对未来同类病症的病人的量化分析 – 也就是通常所说的大数据分析。

在大数据分析中，每个病人被看做一个统计样本，所有病人所共有的许多特点或者关注点（例如年龄，性别等）被看做是特征值。由于病人涉及的特征值可以成千上万（比如脉搏，血压，有无某种病征），整个分析所用到的数据可以达到相当大的容量。一般大数据分析更是利用一个医院多年历史中所有病人的数据，尽管所包涵的信息量很大，其处理难度也可想而知。

现代统计学近二十多年来的巨大发展使得对大数据的分析变成可能，其中对生物医疗数据的分析和应用更是万众瞩目。从制药疗效控制到癌症基因分析，大量与医疗相关的数据被利用作为前沿分析，来进行精确的量化分析。例如2002年自然杂志上刊登的由Laura van ‘t Veer博士等人研究的关于乳腺癌转移风险的预测。其使用的数据是基于70个人体中和乳腺癌相关的基因。通过基因检测出的数值，可以较为精确的预测病人乳腺癌转移的风险。基于该研究研制出的MammaPrint基因测试已被美国FDA（Food and Drug Administration）通过验证，足见其数据分析的可靠性。

大数据分析中的一个重要核心技术是机器学习方法（Machine Learning）。这是所有具有分析和预测方法的总称。机器学习方法中的一个大类方法叫做监督学习(Supervised Learning)，这类方法通过对已有数据的复杂规律进行“学习”，来预测未知数据的结果。例如图一中的监督学习通过对三种不同手势的学习，准确判断未知手势的类型。

图一：三种不同手势的监督学习

住院病人的各种特征值和相应产生的结果（例如死亡率，住院天数和成本）组成了监督学习中最常见的一组响应变量（response variable）和独立变量（independent variables）的关系。基于独立变量可以建立各种统计模型，来预测响应变量的数值大小。响应变量的选择通常比较简单，一般是医院管理中最关注的一些方面。响应变量可以是离散型变量，例如病人死亡与否。也可以是连续型变量，比如住院天数和成本。而独立变量的选择却是监督学习中的难点和重中之重。好的独立变量选择和相应的数据处理可以使得预测模型偏差小而且预测方差（不确定性）也不大，从而达到比较精确的预测结果。

监督学习有着巨大的威力和广泛的应用。它可以适用于预测和分析几乎所有常见的社会生活中的结果，而基于的独立变量可以来自各个方面，甚至很多是常理上不太相关的数据。例如音乐播放器中常见的音乐推荐，购物网站中的商品推荐都是监督学习最直接的应用领域。生物医学上监督学习的重要性更是不言而喻。从通过核磁共振脑部图像定位肿瘤位置（图二），到层出不穷的基因癌症分析，监督学习都是其中使用的核心技术。

图二：基于图像分析的脑肿瘤定位和复原

（原图取自文献：Statistical Asymmetry-based Brain Tumor Segmentation from 3D MR Images）

在日趋高速和数字化的社会，医院管理中引入以监督学习等为核心的数据分析技术是一个必然的趋势。近二十多年统计学特别是机器学习领域的高速发展已经使得很多欧美发达国家走在很多技术革新的前沿。基于这些技术的精确语言识别，图像（比如人脸）识别，人工智能在为社会和生活提供着巨大的便利和效用。现代医院管理也无一例外。医疗数据和技术都在高速的日臻完善和改进中，对医院中各个方面的管理引入数值量化分析是大势所趋，也会在未来社会发展中变得愈加重要。

上一篇：医疗大数据的分析方法学（二）
下一篇：疾病风险调整方法学