【翻译文章】调查中处理缺失值的最佳方法
本篇文章翻译者:haochenxuehappy 校稿:zzelva
调查中处理缺失值的最佳方法
关于推算的说明
美国最近完成了其第23届联邦人口普查。第一次人口普查的实施是在1790年依据宪法授权在Thomas Jefferson执政时期进行的。直到1950年,人口普查采用亲自登记或打电话的方式,所以缺失值的风险降被降低到最小。
自从人口普查采用邮件的形式,无回复的比率以及无回答问题的数量开始增加。这个问题不仅出现在邮件回复人口普查上,并且影响到大多数的调查——尤其是大规模、大范围的调查的形式——无论什么形式的调查。
比如,在美国,一个企业家的大规模年度例行统计,其中的专家和调查组织者,就遇到了两个影响调查质量的无回答问题:
1. 总体拒访率和对特定问题的无回答率在随机电话调查中持续上升。在2008年的调查中,为了得到4000份回答,需要多进行25,000多个的访问。
2. 电话随机抽样调查,针对仅使用手机的用户在美国是不被法律允许的。因此联系到个人电话的使用者产生了人口统计上的偏差。同时,向对于美国的年龄分布,18-35岁年龄组的回答者不足,导致我们需要对该年龄组进行超密度采样。
令人欣慰的是,技术可以填补调查中缺失值所导致的偏差。在处理缺失值或总体调查的无回答时,我们可以使用权重来为特定的总体产生代表性的样本。为了填补某些特定的缺失值问题,还有一些更加复杂的推算方法——这些方法更加错综复杂,而且这类技术也可能会暗含影响统计分析的信息。
缺失值的类型
在调查中空缺值可以按照空缺信息的随机程度来分类。最简单并且是最强有力的假设就是数据资料的缺失是“完全随机的”。这意味着调查者没有其他的信息可以辅助填补缺失值。从统计上来讲,在被统计者完成的数据当中没有足够的信息去用条件概率来改善该缺失值。
在这种情况下,可以使用其他被调查者的回答的随机值来填补空缺。这种假设有些差强人意,还有一个更好的方法,利用其他的受调查者的回答来推算。
另一个强有力的假设是“资料随机空缺”。这个假设要求变量可以在一定条件下帮助填补缺失值并且提供一个值域来建立一个关于缺失值的更优的模型。
例如,考虑以受调查者的教育水平来推算年龄缺失值:20-23岁常等同于大学毕业生,17-20岁通常是高中毕业生。基于最高学力,使用上述数值范围来填补年龄的缺失值。
一种非常可能的情况是“非随机空缺”的推算。在知道其他受调查者的回答时,调查者可以以较高的正确概率来推算缺失值,比如基于受调查者的邮政代码推算其区域代码。
任何推算程序,分析偏差都应该最小化,同时最大化对可用信息的使用,并且对变异性和误差做合理的估计。
非统计性推算
以下的技术用其他被调查者的数据或者合理的猜测来填补空缺资料:
删除受调查者或成对删除:这些是处理缺失值最简单的方式。但是它们会同时删除有用的数据,导致结果的偏差。
在分析过程中,可以选择删除该case,删除该变量,或者成对删除——所有的变量数据被纳入统计推断,并纳入统计概要,但是这可能造成不同分析之间的样本大小有差异。对于成对删除(不删除全部回答),如果部分回答的受调查者与那些完全回答的受调查者有显著的不同,可能会导致偏差。
Hot-deck程序:这项技术应用其他受访者的真实回答作为处理某一特定受访者缺失值的基础。最简单的方法是采用一个随机答案作为缺失值的替代。更好的办法是使用一个hot-deck程序——在具备该受访者的特征的回答群体中寻找缺失值的替代。
比如,如果性别,种族和教育年限的信息都具备却惟独少了年龄,那么一个与之具有同样性别,种族和上学时间的随机受调查者就会从其他的受调查者中被选择出来,该受调查者的年纪就会被填补入空缺的资料数据中。
分层的程序使得匹配的变量可以排序,在推算年龄的过程中,性别和教育年限在计算年纪时比种族要更加重要。即便种族不同,但是其他重要的变量匹配精准,就可以用来的填补缺失值。
美国人口普查局已经应用此项技术来推断缺失值。此外,John Stiller 和Donald R. Dalzell公布了一个用于在SAS软件中执行此项技术的宏。
另一个相关的推算技术cold-deck程序,与之相似,但运用的是统计概要。我们将在本专栏稍后讨论。
内插法和外插法:这项技术通过代数内插,或者当假设数据在某一固定的形状或分布的函数,用公式来推算缺失值。
推演计算:这可以是一个定性的或定量的技术。定性地,用于小调查,研究者可以去读出受调查者的结果,且有较高的置信度来推算缺失值。
例如,给出一个调查者地址,研究者可能根据调查者对某一地区的认知推算其种族或住宅所有权。这种方法消耗时间,且非概率性的,因此不能从统计上证明是合理的。
统计计算
下面的技术用于减小偏差、变异或都两者皆有:
平均值替代或冷-甲板程序:非常简单合理的推算方法。简单的平均值替代法,可以通过改变量的总体平均值,为任意变量填补任何缺失值。复杂平均值替代法,通过与该缺失值相关的条件变量的平均值,来填补缺失值。与hot-deck技术相似。
例如对于缺失年龄值,总体平均年龄可以作为简单的平均值来替换。复杂替换则使用所有高中学历亚洲女性的平均年龄,替代该人口学分组的缺失值。在很多情况下,随机性的水平是通过根据年龄分布添加的随机数值完成的。
此项技术的问题是,在计算自由度或者标准误差时,推算数据会被包括在有效回答中,但事实上,它们是统计估计。
通过增加自由度或减少标准误差,该技术的结果就更可能导致统计学显著。许多统计软件允许缺失值的简单的平均值替换。某些允许从重要的条件变量中得来的子群平均值替换。
回归和随机回归技术:通过实施线性(或理论上地,非线性)模型来预测缺失值。这些方法,是以所有非缺失数据建立一个模型,来预测缺失值。
这项技术中一个非常吸引人的成果是回归的方法不仅会得出预期值,还会有这个值的置信区间。调查者便可以用平均值和极值带入缺失值来检查对分析的影响。
这也是一个向对于确定与缺失值变量相关的重要变量,以及计算相关平均值的方法来说更加简单的办法。前者的信息可能来自于一个极端的小群组。与平均值替代法相似,但这个方法会增加分析的自由度,以及任何由此产生的统计性测试会更加显著。
决策树:这种方式,是数据挖掘方面的有监督的机器学习技术,基于类别数据(或者可以归为类别数据)的概率计算。他们是统计的但依靠机器学习算法来代替研究者创造的模型。
然而那可能是一个统计学的技术,这个方法设计的是为了适用于那些统计测试不太合适的大数据集合。显然,如果应用统计方法,它将会像前面提到的一样,增加统计学的显著性。
表格1 描述了在2008美国全球企业家观察的调查中运用的所有技术。受调查者的实际年龄25岁被隐藏,来测试不同分析方法的结果与真实值之间的差异。总的推算对她的年龄从22到48岁不等,大多数都在三年内。
结果显示:
• 数据缺失不是随机的
• 统计的和非统计的技术可以同样准确
在全球企业家调查中实际的平均年龄为48(范围从18到99),女性的平均年龄是43(范围从18到78),一位大学学历、两年工作经验的女性企业家平均值年龄24(范围从19到25)。
全面公开
这些所提供的技术,从简单到复杂都是为了计算出缺失值。技术从完全的调查研究者的技术到完全的机器驱动技术区分开来。
所有方法都可以从单一缺失值扩展到复合缺失值推算。但是,小心使用复合算法:样本中的推算值所占比率越高,通过分析得出的推论的错误越多。
要记住的是,方法的使用和缺失值计算的百分比必须被披露在报告的假设中。明智地运用,缺失值修正技术可以扩大分析和增强结论。
I. Elaine Allen是Arthur M. Blank中心企业家调查项目的调研总监,Babson调研小组的主管以及位于Wellesley, MA的Babson学院里统计学和企业家方面的教授。她在位于Ithaca, 纽约的Cornell大学曾获得过博士学位。Allen是美国质量协会的成员之一。
Julia E. Seaman 是圣弗朗西斯科的加利福尼亚大学药理基因组学的在读博士生,Babson学院的调研小组的统计学顾问。她曾获得了位于Claremont, CA,Pomona 学院的化学和数学的双学位。
调查中处理缺失值的最佳方法
关于推算的说明
美国最近完成了其第23届联邦人口普查。第一次人口普查的实施是在1790年依据宪法授权在Thomas Jefferson执政时期进行的。直到1950年,人口普查采用亲自登记或打电话的方式,所以缺失值的风险降被降低到最小。
自从人口普查采用邮件的形式,无回复的比率以及无回答问题的数量开始增加。这个问题不仅出现在邮件回复人口普查上,并且影响到大多数的调查——尤其是大规模、大范围的调查的形式——无论什么形式的调查。
比如,在美国,一个企业家的大规模年度例行统计,其中的专家和调查组织者,就遇到了两个影响调查质量的无回答问题:
1. 总体拒访率和对特定问题的无回答率在随机电话调查中持续上升。在2008年的调查中,为了得到4000份回答,需要多进行25,000多个的访问。
2. 电话随机抽样调查,针对仅使用手机的用户在美国是不被法律允许的。因此联系到个人电话的使用者产生了人口统计上的偏差。同时,向对于美国的年龄分布,18-35岁年龄组的回答者不足,导致我们需要对该年龄组进行超密度采样。
令人欣慰的是,技术可以填补调查中缺失值所导致的偏差。在处理缺失值或总体调查的无回答时,我们可以使用权重来为特定的总体产生代表性的样本。为了填补某些特定的缺失值问题,还有一些更加复杂的推算方法——这些方法更加错综复杂,而且这类技术也可能会暗含影响统计分析的信息。
缺失值的类型
在调查中空缺值可以按照空缺信息的随机程度来分类。最简单并且是最强有力的假设就是数据资料的缺失是“完全随机的”。这意味着调查者没有其他的信息可以辅助填补缺失值。从统计上来讲,在被统计者完成的数据当中没有足够的信息去用条件概率来改善该缺失值。
在这种情况下,可以使用其他被调查者的回答的随机值来填补空缺。这种假设有些差强人意,还有一个更好的方法,利用其他的受调查者的回答来推算。
另一个强有力的假设是“资料随机空缺”。这个假设要求变量可以在一定条件下帮助填补缺失值并且提供一个值域来建立一个关于缺失值的更优的模型。
例如,考虑以受调查者的教育水平来推算年龄缺失值:20-23岁常等同于大学毕业生,17-20岁通常是高中毕业生。基于最高学力,使用上述数值范围来填补年龄的缺失值。
一种非常可能的情况是“非随机空缺”的推算。在知道其他受调查者的回答时,调查者可以以较高的正确概率来推算缺失值,比如基于受调查者的邮政代码推算其区域代码。
任何推算程序,分析偏差都应该最小化,同时最大化对可用信息的使用,并且对变异性和误差做合理的估计。
非统计性推算
以下的技术用其他被调查者的数据或者合理的猜测来填补空缺资料:
删除受调查者或成对删除:这些是处理缺失值最简单的方式。但是它们会同时删除有用的数据,导致结果的偏差。
在分析过程中,可以选择删除该case,删除该变量,或者成对删除——所有的变量数据被纳入统计推断,并纳入统计概要,但是这可能造成不同分析之间的样本大小有差异。对于成对删除(不删除全部回答),如果部分回答的受调查者与那些完全回答的受调查者有显著的不同,可能会导致偏差。
Hot-deck程序:这项技术应用其他受访者的真实回答作为处理某一特定受访者缺失值的基础。最简单的方法是采用一个随机答案作为缺失值的替代。更好的办法是使用一个hot-deck程序——在具备该受访者的特征的回答群体中寻找缺失值的替代。
比如,如果性别,种族和教育年限的信息都具备却惟独少了年龄,那么一个与之具有同样性别,种族和上学时间的随机受调查者就会从其他的受调查者中被选择出来,该受调查者的年纪就会被填补入空缺的资料数据中。
分层的程序使得匹配的变量可以排序,在推算年龄的过程中,性别和教育年限在计算年纪时比种族要更加重要。即便种族不同,但是其他重要的变量匹配精准,就可以用来的填补缺失值。
美国人口普查局已经应用此项技术来推断缺失值。此外,John Stiller 和Donald R. Dalzell公布了一个用于在SAS软件中执行此项技术的宏。
另一个相关的推算技术cold-deck程序,与之相似,但运用的是统计概要。我们将在本专栏稍后讨论。
内插法和外插法:这项技术通过代数内插,或者当假设数据在某一固定的形状或分布的函数,用公式来推算缺失值。
推演计算:这可以是一个定性的或定量的技术。定性地,用于小调查,研究者可以去读出受调查者的结果,且有较高的置信度来推算缺失值。
例如,给出一个调查者地址,研究者可能根据调查者对某一地区的认知推算其种族或住宅所有权。这种方法消耗时间,且非概率性的,因此不能从统计上证明是合理的。
统计计算
下面的技术用于减小偏差、变异或都两者皆有:
平均值替代或冷-甲板程序:非常简单合理的推算方法。简单的平均值替代法,可以通过改变量的总体平均值,为任意变量填补任何缺失值。复杂平均值替代法,通过与该缺失值相关的条件变量的平均值,来填补缺失值。与hot-deck技术相似。
例如对于缺失年龄值,总体平均年龄可以作为简单的平均值来替换。复杂替换则使用所有高中学历亚洲女性的平均年龄,替代该人口学分组的缺失值。在很多情况下,随机性的水平是通过根据年龄分布添加的随机数值完成的。
此项技术的问题是,在计算自由度或者标准误差时,推算数据会被包括在有效回答中,但事实上,它们是统计估计。
通过增加自由度或减少标准误差,该技术的结果就更可能导致统计学显著。许多统计软件允许缺失值的简单的平均值替换。某些允许从重要的条件变量中得来的子群平均值替换。
回归和随机回归技术:通过实施线性(或理论上地,非线性)模型来预测缺失值。这些方法,是以所有非缺失数据建立一个模型,来预测缺失值。
这项技术中一个非常吸引人的成果是回归的方法不仅会得出预期值,还会有这个值的置信区间。调查者便可以用平均值和极值带入缺失值来检查对分析的影响。
这也是一个向对于确定与缺失值变量相关的重要变量,以及计算相关平均值的方法来说更加简单的办法。前者的信息可能来自于一个极端的小群组。与平均值替代法相似,但这个方法会增加分析的自由度,以及任何由此产生的统计性测试会更加显著。
决策树:这种方式,是数据挖掘方面的有监督的机器学习技术,基于类别数据(或者可以归为类别数据)的概率计算。他们是统计的但依靠机器学习算法来代替研究者创造的模型。
然而那可能是一个统计学的技术,这个方法设计的是为了适用于那些统计测试不太合适的大数据集合。显然,如果应用统计方法,它将会像前面提到的一样,增加统计学的显著性。
表格1 描述了在2008美国全球企业家观察的调查中运用的所有技术。受调查者的实际年龄25岁被隐藏,来测试不同分析方法的结果与真实值之间的差异。总的推算对她的年龄从22到48岁不等,大多数都在三年内。
结果显示:
• 数据缺失不是随机的
• 统计的和非统计的技术可以同样准确
在全球企业家调查中实际的平均年龄为48(范围从18到99),女性的平均年龄是43(范围从18到78),一位大学学历、两年工作经验的女性企业家平均值年龄24(范围从19到25)。
全面公开
这些所提供的技术,从简单到复杂都是为了计算出缺失值。技术从完全的调查研究者的技术到完全的机器驱动技术区分开来。
所有方法都可以从单一缺失值扩展到复合缺失值推算。但是,小心使用复合算法:样本中的推算值所占比率越高,通过分析得出的推论的错误越多。
要记住的是,方法的使用和缺失值计算的百分比必须被披露在报告的假设中。明智地运用,缺失值修正技术可以扩大分析和增强结论。
I. Elaine Allen是Arthur M. Blank中心企业家调查项目的调研总监,Babson调研小组的主管以及位于Wellesley, MA的Babson学院里统计学和企业家方面的教授。她在位于Ithaca, 纽约的Cornell大学曾获得过博士学位。Allen是美国质量协会的成员之一。
Julia E. Seaman 是圣弗朗西斯科的加利福尼亚大学药理基因组学的在读博士生,Babson学院的调研小组的统计学顾问。她曾获得了位于Claremont, CA,Pomona 学院的化学和数学的双学位。