您还没有绑定微信,更多功能请点击绑定

【翻译文章】考虑简单参数检验来确定一个异常值的显著性

本篇文章由junqin2005翻译  liphking校稿

考虑简单参数检验来确定一个异常值的显著性



朱莉亚 E.西蒙 I.伊莱恩·艾伦


即使是在最基础的统计学导言课程里,我们都会教导学生在一个数据集合中,异常值能引出很多重要的问题。我们常常教导学生对数据采用直观的审查方法有助于辨别异常值。然而,在审查数据后,很少统计学相关的教材会花大量精力去考虑异常值的统计评估及它们对最后分析结果的影响。


学生和研究者均发现异常值难以辨别,而当异常值确认之后,又没有一套清晰的统计工具或检测方法能够确定一个异常值的显著性。有几种用于异常变量的测试方法,我们通过将它们运用于化学实验分析来展示。

保留或删除?

当发现一个可疑的数值时,我们总是倾向一开始就以适当的理由将它从数据中剔除,以简化分析过程从而使用结果易于解释。然而,这种方法是如此之主观以至于使我们可能丢失数据中那些复杂信息。当数据分析中出现一个以上异常值或两个以上的变量时,问题将会变得更复杂。在任何一种数据分析中,随意的删除一个异常值都会对结果造成很大的影响。


弗朗西斯 J 阿森比 的一组回归分析模型能很好的说明一个异常值如何影响到一次分析,甚至在分析中不被发现。这组模型几乎无差别的用于四组有显著差别的数据。表1列出了所有的分析模型。

表1:

回归方程:Y1=3.00+0.500X1
预测值 系数 标准误差 T检验 P值
常数 3.000 1.125 2.67 0.026
X1 0.5001 0.1179 4.24 0.002
Syx=1.23660 校正系数=66.7%


即使是同一回归数,通过对单组数据进行作图也能显示出它们的差别之巨。通过作图,尤其能展示出一个异常值对分析结果的影响。在图形1和2 中,两组数据的图形非常清楚的表明相同的回归线并不能对这些点拟合的同样好,并且,一个异常的数据在图中明显的显示出来。



2.jpg



3.jpg






注意,一些统计软件(如Minitab)在线性回归中报告出的异常值,是通过识别高度标准化的残差值作为回归的默认标准输出的。有些软件有这样的可选项,能提供残差和相关值的对比图和标准残差的概率图,这能更好的帮助我们识别异常值,但仍然不足以确定统计数据中的异常值是否可剔除,同时这种方法也可能漏掉异常值。

简单的异常值检测方法

大多数的参数异常值检测通过衡量特定数据点和所有数据点平均值的相对距离来评估这个数据有多大概率是随机出现的。绝大部分的测试方法是用于对单独的或特定的数据作分析,但其中有几种方法能被广泛地用于分析多个数据点,通常是成对数据点。另外,具有成对数据或n-数组可能代表了变量的组合,可能会难以用简单的测试来识别。

绝大多数的数据检测方法是在F.E. Grubbs,3的基础上的通用化和扩展,他推导出了几种常用于异常值测试的简单而有效的参数测试方法。格拉布斯测试法可以用以下公式表示(Xi表示一个单个的数值,S为样本的标准偏差,n为样本容量):




4.jpg

此公式用于在单点数据中查找异常值,



5.jpg

在一个分布的最大值和最小值上找异常值,



1.jpg

此公式用于在极限值中查找成对的异常值。



狄克逊的Q检验方法与G2在运用于小容量样本中(3到25)异常值的检验时是类似的,而罗斯纳检验方法是格拉布斯检验方法用于样本容量在25个以上的k个异常值的检验的通用化的形式。


格拉布斯检验示例


我们使用格拉布斯检验中最简单的形式来剔除红外光谱分析中的异常数据。红外光谱的数据是从三种有机物的混合溶液中分析得来的,在进行进一步的化学统计学分析之前必须将其中的异常数据剔除。


这样做的目的是要基于光谱来建立统计模型,从而能够从红外光谱中确定未知的混合物浓度。通过有系统的剔除异常数据,使我们能运用这些更少干扰的数据来得到一个更好的模型,最终,也能得到一个好的结果。


这些混合物三等分进行试验,红外光谱分析产生了1501个数据。对这些样品进行从450cm-1到4400cm-1的2cm-1增量扫描。所有样品分析出的光谱区间从600cm-1到3500cm-1。在建立化学度量模型来预测未知浓度值之前,需对光谱进行验证并测试以剔除其中的异常数据。数据组经过处理后,所有的光谱在分析之前都是向均值集中的。


通过使用格拉布斯检验来识别出异常数据。如上面的G1所示,通过找到三组光谱数据每个数据点的标准差,然后计算总体的平均标准差和三组数据标准差的总体标准差对于每一个相似的数组,这种总体计算的标准偏差在格拉布斯检验中运用。

当一个三等分试验的标准差被拒收时,其中的三次试验要使用折叠技术分别进行分析。如果一个单独计算的数组的标准差能显著的降低总体的标准偏差,那么就可从相似的异常数组中将其剔除。根据需要,可循环使用格拉布斯检验法。所有的统计测试方法都在95%置信区间中完成。


在我们的红外光谱数据中,其中一组相似数组的总体平均值是2.653,标准偏差为2.888,那我们通过G1的格拉布斯统计检验结果为5.22。查阅格拉布斯表中的Gcrit,其值为1.91,G1比Gcrit大,空假设被拒绝,那么这个样本为异常数组。


在剔除一组光谱数据后我们重新计算总体的标准差,来找出剩下的两组中哪一组影响最大。在找出并剔除最大不同的相似数组后,样本的总体标准偏差降到了0.04,由此也确定了光谱数组中被剔除的是异常数组。

分析方法的选择


在任何数据分析中,测试并查找异常数据是数据处理中关键的一步。分析时如果包含了那些相对非常大或者非常小的数据,就有可能估计出一个不具有代表性的模型或者引入波动。数据分析如果忽略了对异常数据进行测试的价值,那么异常数据可能会导致一个模型的严重背离。


当有足够多的数据时,应该进行参数的测试;当运用格拉布斯测试时,足够精确的数据和在数据的分布中中没有真正的长尾时,就能够成功的识别出异常数据。格拉布斯测试是一种易用和好用的方法,能很好的和图形一起使用,能识别出是否极限数据应该被隔离分析。

0 个评论

游客无法查看评论和回复, 请先登录注册

发起人

小编D
小编D

记住该记住的,忘记改忘记的。改变能改变的,接受不能改变的。

推荐文章

文章状态

  • 发布时间: 2012-05-10 14:50
  • 浏览: 4730
  • 评论: 0
  • 赞: 0