医疗大数据分析及应用 | Medical big data 首页 > 医疗大数据分析及应用 > 疾病风险调整方法学
医疗大数据的分析方法学(二)
       数据分析中的统计方法各种各样,其中回归分析(Regression Analysis)是最经典的方法之一。最早形式的回归分析可以追溯到两百多年前由德国数学家高斯提出的最小二乘法。而回归分析也是研究时间最长和应用最广泛的的方法。自从产生以来回归分析一直都是统计学家研究的一个重点领域,直到近二十多年来还有很多对回归分析提出的各种新的改进。
       回归分析也是机器学习(Machine Learning)中最基本的方法之一。回归模型一般假设响应变量(response variable)和独立变量(independent variables)有具体的参数化(parametric)形式的关系,而这些参数有很多成熟的方法可以去估计(比如最小二乘法),误差分析方法也有详细的研究。总的来说,回归分析方法具有数据适应性强,模型估计稳定,误差容易分析等优良特点,即使在机器学习方法发展如此多种多样的今天,依然是各个领域中最常用的分析方法之一。
 
图一:线性回归举例
 
       回归分析中最常见的线性回归假设响应和独立变量间存在明显的线性关系。如图一所示,响应变量(蓝色点)的数值大致在一条(红色)直线周围,除了每个点都有的随机误差。线性回归模型看似极大的简化了响应变量和独立变量之间的关系,其实在实际分析中往往是最稳定的模型。因为线性模型受到极端或者坏数据的影响最小。例如预测病人的住院成本,很可能出现其中一两个病人会有很大的花费,这个可能是跟病理无关的,这种病人的数据就很可能影响整个模型对于一般病人住院成本的预测。所以一个统计模型的稳定性是实际应用中的关键:对于相似的数据应该得出相似的分析结果。这种稳定性一般统计里用模型的方差来表示,稳定性越好,模型的方差越小。
       在机器学习中存在一个重要理论:方差权衡。一般常理认为模型建立得越复杂,分析和预测效果应该越好。而方差权衡恰恰指出了其中的弊端。复杂的模型一般对已知数据(training sample)的拟合(fitting)大过于简单模型,但是复杂模型很容易对数据出现过度拟合(over-fitting)。因为所有实际数据都会有各种形式的误差,过度拟合相当于把误差也当做有用的信息进行学习。所以在未知数据(test sample)上的分析和预测效果会大大下降。图二说明了方差权衡的结果。模型复杂度在最低的时候(比如线性回归)预测的偏差比较大,但是方差很小。随着模型复杂度的增大,对已知数据的预测误差会一直下降(因为拟合度增大),而对未知数据却出现拐点,一旦过于复杂,预测方差会变大,模型变得非常不稳定。
 
图二:机器学习中的方差权衡
 
       因此在很多实际生活应用中,线性模型因为其预测方差小,参数估计稳定可靠,仍然起着相当大的作用。正如上面的方差权衡所述,建立线性模型中一个重要的问题就是变量选择(或者叫模型选择),指的是选择建立线性模型所用到的独立变量的选择。在实际问题例如疾病风险控制中,独立变量一般会有200 ~ 300个之多。如果使用所有的变量,很可能会出现模型的过度拟合。所以对变量的选择显得尤为重要。
       传统的变量选择是采用逐步回归法(stepwise selection),其中又分为向前(forward)和向后(backward)的逐步回归。向前逐步是从0个变量开始逐步加入变量,而向后逐步是从所有变量的集合开始逐次去掉变量。加入或去掉变量一般按照标准的统计信息量来决定。这种传统的变量选择的弊端是模型的方差一般会比较高,而且灵活性较差。近年来回归分析中的一个重大突破是引入了正则化回归(regularized regression)的概念, 而最受关注和广泛应用的正则化回归是1996年由现任斯坦福教授的Robert Tibshirani提出的LASSO回归。LASSO回归最突出的优势在于通过对所有变量系数进行回归惩罚(penalized regression), 使得相对不重要的独立变量系数变为0,从而排除在建模之外。
       LASSO方法不同于传统的逐步回归的最大之处是它可以对所有独立变量同时进行处理(图三),而不是逐步处理。这一改进使得建模的稳定性大大增加。除此以外,LASSO还具有计算速度快,模型容易解释等很多优点。而模型发明者Tibshirani教授也因此获得当年的有统计学诺贝尔奖之称的考普斯总统奖(COPSS award)。
图三:LASSO方法对所有变量系数的同时处理(从右向左)。利用调整(惩罚)参数的数值(从1到0),不断有很多不重要的变量系数值变为0 (即触碰到中间的值为0的横线)。从而达到变量选择的目的
 
       基于LASSO方法的线性回归在疾病风险控制问题上有很好的应用。如上所述,由于疾病产生的独立变量一般数量较大,且多为离散型数据,如果利用逐步回归很可能会导致模型预测的方差较大。另外,LASSO方法为建立模型提供了很大的灵活性,可以很好的跟临床诊断的一些经验相结合,使得模型预测更加有的放矢。同时,模型容易解释也使得单纯的统计方法更能在实际医疗应用中起到更大的作用。
 
houli18080142049
028-62695200
扫一扫关注我们