1背景
数据缺失(missing data)在调查研究中是一个非常普遍的现象,它的出现造成部分原始样本信息的损失,在一定程度上危害研究结果的有效性。缺失数据给研究结果带来的危害程度取决于数据缺失的机制、缺失数据的数量和造成缺失的原因,明确数据缺失的机制是正确选择缺失数据分析方法的前提。
2数据缺失类型和常用方法
在之前的学习中,我们已经对数据的缺失机制有所了解,包括:
完全随机缺失(missing completely at random, MCAR)即数据缺失不依赖于任何其它变量, 缺失数据可看作是来自总体的一个简单随机抽样;
随机缺失(missing at random, MAR)即缺失数据依赖于其它变量被观测到的数据, 但不依赖于其它变量缺失的部分;
另外,如果数据缺失与其它变量中观测到的数据或缺失的部分之间存在着依赖关系, 则称为非随机缺失(missing not at random, MNAR)。
按照数据的缺失模式又可分为单调缺失模式和任意缺失模式,其中单调缺失模式是指对数据集进行任意的行列对换后,若能达到该矩阵中Xij缺失,对任意的k≥i 和l≥j,Xkl亦缺失的情形,则该数据为单调缺失模式,如果任意的行列对换后无法达到以上情形,则为任意缺失模式。针对不同的缺失机制,有不同的缺失处理方法,下面我们对这些缺失处理方法进行一下简单的介绍。
2.1删除法
删除法是一种传统的缺失数据处理方法,包括成列删除和成对删除。列删除是指通过从样本删除所关注模型中的在任何变量上有缺失值的观察值,然后运用传统分析完整数据的方法来实现,即只对要分析的变量中都有观察值的对象进行分析,放弃对有缺失值的对象进行分析的方法。运用成列删除法虽不用担心因为缺失数据或存在编造数据而导致推论错误,但是当有大量数据缺失时,进入分析的对象会很少,这样会降低统计检验的效能,浪费许多信息。另一方面,如果数据不是MCAR,成列删除可能会产生有偏的估计值。
成对删除又称为可得个案分析,指用数据集中所有能利用的数据进行参数估计的方法。可用于许多线性模型,包括线性回归,因子分析等。相对于成列删除它利用的信息更多,使用了所有有效的变量值,它的缺点是根据缺失数据形式不同,分析各个变量时的样本总在不断变化。删除法可用于单调缺失模式下缺失率较小的横断面资料。
2.2加权法
加权调整就是当数据出现缺失值时,通过某种方式把缺失值的权数分解到非缺失值(即观测值)身上。它通过增大调查中有观测数据的权数,以减小由于缺失数据可能对估计量带来的偏差。
2.3回归法
回归法可用于单调缺失模式的连续型变量,假设含有缺失值变量与完整变量之间存在线性回归的关系,例如变量Xi是一个含有缺失的变量,用完整变量X1、X2、...、Xi-1拟合回归方程:
E[Xi|β]= β0+β1*X1+β2*X2+…+β(i-1)*X(i-1)
获得回归系数的参数估计值β_hat。在每一次填补过程中,在β的后验分布里随机抽取新的参数β’计算Xi’,
Xi’=β0’+β1’*X1+β2’*X2+…+β(i-1)’*X(i-1)+σ’*ε
其中σ’为方程的方差估计,ε是模拟出来的正态随机误差。将缺失值Xi用数据集中Xi’值作为填补值。
2.4极大似然和EM算法
极大似然估计法是在总体分布类型已知情况下的一种参数估计方法。在模型假定正确的情况下,若缺失机制为随机缺失,通过已观测数据的边际分布可以对未知参数进行极大似然估计,得到未知参数的准确估计值。
然而,当数据为任意缺失模式,似然函数没有明显形式的解,例如,当观测数据是完整时,某变量均数的最大似然估计是该变量值的总和与样本量之比。而当该变量的一些值缺失时,该变量值的总和是未知的,这样就不能对该变量均数进行估计。此时可使用EM算法进行迭代运算,EM算法即为期望最大化法(expectation-maximization),两次迭代分别为E步和M步:E步目的为求期望;M步将随机参数进行极大化。其基本思想为将1=(θ|Y)中出现的缺失数据视为(θ|Yobs)的函数(Yobs为完整数据),用条件期望替换缺失数据,然后估计参数,如此迭代直至收敛。EM算法应用的条件是数据为多元正态分布且数据缺失的机制是可忽略的。
2.5填补(imputation)
填补是处理缺失数据常用的一类技术方法,可以减少由于无应答等造成的估计偏差,尤其是在拥有比较高质量的辅助信息时。但是,一些简单的填补可能歪曲数据的分布和变量间的真实关系,填补过程可能很困难且不容易实现,特别是在多维复杂结构下。根据对每个缺失值的填补次数,可分为单一填补和多重填补。
单一填补是对每个缺失值,从预测分布中抽取一个值填充缺失值。它以观测数据为基础,为填补创建一个预测分布。如何预测这个分布可以有两种途径:①预测模型可基于一个常用的统计模型,这类方法有均值填补、回归填补等;②即采用某个算法,该算法蕴含一个基本模型,但假定是模糊的,使用时需判断假定是否合理,这类方法主要有最近距离插补、热卡填补(hot deck imputation)、冷卡填补(cold deck imputation)等。其中热卡填补中常见的有随机热卡填补法和序贯热卡填补法。随机热卡填补是通过对变量Y 的回答单元进行有放回的简单随机抽样获得填补值。序贯热卡填补法首先对数据分层,然后在每层中按照某种顺序对单元排序,对于有数据缺失的单元,用同一层中最后一个被计算机读取的数据进行填补。冷卡填补是相对于热卡填补而言的,其填补值是从以往的调查或者其他历史数据中获得的。
多重填补(multiple imputation, MI)由Rubin 在1978 年提出,它通过某种方法对每个缺失值都构造d个替代值(d≥2) ,以形成D个完整的数据集,对每个数据集均采用相同的针对完整数据集的统计方法分析,将得到的结果综合,产生最终的统计推断。多重填补并不是试图通过模拟值去估计每个缺失值,而是去代表缺失值的一个随机样本。与单一的填补方法相比,MI 能反映由缺失数据带来的不确定性,增加了估计的效率。多重填补方法需要根据资料类型和缺失模式来选择相应的填补方法。常用的MI有回归预测法(Regression Method)、倾向得分法(Propensity Score Method)、马尔科夫蒙特卡洛方法(MarkovChain Monte Carlo Algorithm, MCMC) (Yang & Rockville, 2001)。但当数据属于任意缺失模式时,仅MCMC方法可“胜任”。
3实例介绍
本资料节选自1999年11月至2000年5月对湖南省洞庭湖洪灾区7~15 岁儿童的创伤性应激障碍(post traumatic stress disorder, PTSD)发生情况及其影响因素的流行病学调查,随机选取500例资料完整的研究对象,在R软件中模拟出随机缺失20%的不完整数据。选取4个对儿童发生PTSD有关的变量作为自变量,以PTSD(二分类变量)为因变量,进行Logistic回归分析,这些变量包括年龄(定量变量)、性别(二分类变量)、受灾程度(等级变量)、受灾经历(即曾被水围困等待救援与否,二分类变量)。
实现多重填补的常规软件包括SPSS软件中“Analyze”菜单下的“multiple imputation”模块、SAS软件中的MI和MIANALYZE两个过程、R软件中的MICE软件包等。
3.1分析步骤
3.1.1缺失机制判断
本例中通过计算机模拟缺失机制为MAR的情况下缺失量为20%的情况。而在实际运用中,可从专业角度出发,根据缺失机制的定义来进行判断。(回复“缺失机制”可以获取相关资料)
3.1.2缺失模式判断
对数据集进行任意的行列对换后,仍无法达到该矩阵中Xij缺失,则对任意的k≥i 和l≥j,Xkl亦缺失的情形,故该数据为任意缺失模式。因此宜选择MCMC方法的多重填补。
3.1.3数据分析过程
分析的过程首先是用多重插补法对缺失值进行多重插补,插补次数一般可以选择5~10次(有研究表明插补次数在这个范围内的插补效率较高),本例中设定为默认值即插补5次。多重插补以后将产生5个插补数据集,然后可用Logistic回归来对插补后的数据进行常规分析,最后将这些分析结果进行合并从而产生最终的统计推断。结果见表1
表1 不同方法处理缺失数据后的回归系数及其相对误差
变量 | 不同处理方法下的回归系数(相对误差%) | ||
完整数据集(n=500)* | 成列删除(n=163)* | 多重填补(n=2500)* | |
受灾程度 | - 0.27(-) | - 0.21(-22.2) | - 0.25(-7.4) |
性别 | 0.31(-) | 0.43(38.7) | 0.29(-6.5) |
年龄 | - 0.10(-) | - 0.17(70.0) | - 0.15(50.0) |
受灾经历 | 2.76(-) | 21.62(683.3) | 2.50(-9.4) |
n*表示纳入分析的有效例数
分别用成列删除和多重填补法处理本例中的不完整数据集后,令用不同缺失值处理方法计算出的回归系数为b1,用完整数据集计算出的回归系数为b2,则相对误差为(b1-b2) / b2×100%。从表1中可见,与列表删除法相比,多重插补的处理效果更好,各回归系数更接近于完整数据集下的真值,其相对误差的绝对值几乎都比列表删除法要小,且相对误差的范围不超过50%。
4结语
目前尚没有哪一种处理缺失数据的方法是绝对普遍适用的,每种方法都有利有弊,且处在不断的发展与改进之中。对于现有的方法,应该根据每一种方法的特点结合实际问题加以分析、选择和应用,必要时可以将两种或多种方法结合使用,以最合理、有效的方式来处理相应的缺失数据。
参考文献:
鲍晓蕾, 高辉, 胡良平. 多种填补方法在纵向缺失数据中的比较研究. 中国卫生统计 2016:45-48.
吴秋红, 张丕德, 周国茂, 罗珍胄. 多重填补法和多水平模型在纵向随访数据中的应用. 中华疾病控制杂志 2016:729-733.
几种填补方法的比较及在纵向数据缺失中的应用.
沐守宽, 周伟. 缺失数据处理的期望-极大化算法与马尔可夫蒙特卡洛方法. 心理科学进展 2011:1083-1090.
帅平, 李晓松, 周晓华, 刘玉萍. 缺失数据统计处理方法的研究进展. 中国卫生统计 2013:135-139.
易昆南, 袁中萸. 对模拟纵向数据集缺失值处理的几种方法比较. 湖南工业大学学报 2008:48-51.
感谢张晗希的撰稿!
长按识别关注我们