实验数据分析--离群值、参考值
各位高手,你们好!
我前段时间做了一组对比实验,主要测试不同的测试者在进行测试的水平,实验数据的偏差情况。数据如附件。但我不知如何更好的将测试数据进行,离群值、参考值的计算,是否要将其剔除、如何设定允许偏差范围等。目的是分析检测数据的差异,如何合理的剔除偏离数据。请抽空指点一下??
数据1 112 113 115 143.6 53.19 130.6 127.43 122.28 126.95 138.3 144.03 121.7 139.5 133 137.3 121 144.7 129.3 118 128.81 120.6 152.5 152 128.81 137.2 128.69 155.3
数据2 10 9 8 8.01 8.77 7.59 8.01 3.843 3.36 7 9.92 11.7 6.09 8.65 8.32 9.61 13.45 8.6 8.5 10.22 9.28 12.8 13.46 10.22 8.32 7.61 13.29
我前段时间做了一组对比实验,主要测试不同的测试者在进行测试的水平,实验数据的偏差情况。数据如附件。但我不知如何更好的将测试数据进行,离群值、参考值的计算,是否要将其剔除、如何设定允许偏差范围等。目的是分析检测数据的差异,如何合理的剔除偏离数据。请抽空指点一下??
数据1 112 113 115 143.6 53.19 130.6 127.43 122.28 126.95 138.3 144.03 121.7 139.5 133 137.3 121 144.7 129.3 118 128.81 120.6 152.5 152 128.81 137.2 128.69 155.3
数据2 10 9 8 8.01 8.77 7.59 8.01 3.843 3.36 7 9.92 11.7 6.09 8.65 8.32 9.61 13.45 8.6 8.5 10.22 9.28 12.8 13.46 10.22 8.32 7.61 13.29
没有找到相关结果
已邀请:
1 个回复
LILY_LINLIN (威望:210) (天津 天津) 汽车制造相关 经理助理、质量技术主管 - 铸造、冲压 、焊接、模具,生产、质量、技术管理
赞同来自: 白桦树
分析数据中离群值的处理方法 赵 辉’,邵素华!,谢东坡’ (’周口师范学院化学系,河南周口#@@"""; !平顶山中盐皓龙有限责任公司检测中心,河南平顶山#@)""") 摘A要:归纳了@种常见处理离群值的方法,根据每种方法的原理和特点,对其各自的适用范围进行了讨论关键词:离群值;标准偏差;检验方法 中图分类号:AB@%!AA文献标识码:ACAA文章编号:A’@)’$(#)@(!""#)"%$"")"$"! !"#$%&#’%(&$)’-(,#’%2#0+#’# 5DCBD0E’,>DCB>0F603!,GHIJ,2=F?,’ (’[i]<69KE;L1MJ9?31LK92L,56,07,0893:691;<,--9=9,56,07,0#@@"""; !IN3KE23LE,2<92L91,D3,-,2=<,,?913LE,2OLP,4<6E23>3-L,QE2=PE2=;632#@)""",<6E23) 345’-#2’:869?3?91;0KK31ER9;;ENK9L6,P;4,19N3KE2E2=S0L-E9132PPE;:0;;9;L693??-E:3LE,2132=9,493:6K9L6F,P3::,1PE2=L,EL;:6313:L91E;LE:32PL69,1M 6)17(-+5:S0L-E91;;L32P31PP9TE3LE,2;9N3KE23LE,2K9L6,P 在一组平行测定所得到的分析数据中,有时会出现个别测定值与其他数据相差较远,这些数据称为离群值或逸出值(U0L-E91)初学者多倾向于随意舍弃这一可疑值,以获得精密度较好的分析结果对于离群值,首先应从技术上设法判断其出现的原因,如果查明确由实验技术上的失误引起的,不管这样的测定值是否为异常值,都应舍弃,而不必进行统计检验但是,有时由于各种原因未必能从技术上找出它出现的原因,在这种情况下应对其进行统计检验,以便从统计上判明离群值是否应该保留或舍弃 ’A离群值的检验方法 离群值的检验可分为两大类:一类是标准偏差预先已知的场合;另一类是标准偏差未知的场合只能利用待检验的一组分析数据本身来检验其中的离群值是否为异常值本文只对同一组分析数据中的异常值的取舍予以探讨,不涉及同一总体中不同样本间的离群值的问题’*’A标准偏差预先已知 检验时使用统计量 !V"#$#
" ! (’) 式中"#是被检验的离群值,#"是一组测定值的算术平均值,!是由不包括异常值在内的其他实验测定值求得如果根据式(’)计算的!值查表大于舍弃界限中相应置信度下的临界值,则将"#作为异常值舍弃’!A标准偏差未知 在更多的情况下标准偏差是未知的,只能利用待检验的一组分析数据本身来检验其中的离群值是否应该保留或舍弃本文对常用的几种方法(或准则)予以探讨’!’A拉依达法 万
方数据
根据拉依达法,如果离群值!"与测定平均值之差的绝对值大于!倍的标准偏差(#),即 "!"!"$!#,则可以认为该离群值!"为异常值,应从该组分析数据中舍弃;否则,应予保留%&%’%’($检验法 亦称狄克松法,该法由迪安()*+,)和狄克松()-./,)在&01&年提出%具体步骤如下:将分析数据由小至大按顺序排列:!&,!’,!!,…,!%#&,!%,其中可疑值为!&或!%% 求出可疑值与其最邻近值之差(!%#!%#&)或(!’#!&),然后用它除以极差(!%#!&),计算出统计量 $2 !%#!%#&!%
#!&((或(($2!’#!& !%
#!& & $值越大,说明!&或!%离群越远% 根据测定次数和所要求的置信度查表,若$大于所查数值,则相对于$的!&或!%为异常值,应予弃去;否则,应予保留%&%’%!(肖维特法 用肖维特法检验离群值,使用统计量 !2 J!"!
"# %根据上式算出的!值,如果大于肖维特系数表中相应测定次数时的值,则可以认为该离群值!"为异常值,应从该组分析数据中舍弃;否则,应予保留%&%’%3(格鲁布斯法 将分析数据由小至大按顺序排列:!&,!’,!!,…,!%#&,!%,其中可疑值为!&或!%%先计算出该组数据 的平均值#!和标准偏差#,再计算统计量 ’2 #!#
!&#((或((’2 !%#
#! #&根据事先确定的置信度和测定次数查表,如果’大于所查数值,则相对于’的!&或!%为异常值,应予弃去;否则,应予保留%&%’%1((检验法 用(检验法检验离群值,使用统计量 )2 J!"##
! "# 和肖维特法不同的是,式中#!和#由不包括离群值在内的%#&个数据计算%根据事先确定的置信度和测定次数查表,如果上式算出的)值大于表中相应的值,则可以认为该离群值!"为异常值,应从该组分析数据中舍弃;否则,应予保留%&%’%4(极差法 利用极差检验一组分析数据中的离群值时,使用统计量 (*2 J!"!
" &式中为极差%根据事先确定的置信度和测定次数查表,如果上式算出的(*值大于表中相应的值,则可以认为该离群值!"为异常值,应从该组分析数据中舍弃;否则,应予保留%&%’%5(其他方法 还有一些文献和资料[&6’] 从不同的角度提出了更多的离群值的判断和处理方法,由于没有在实践中 得到广泛的应用,在此不做过多介绍% ’(方法的比较 上述方法有着各自的特点和适用范围%拉依达法使用方便,不需查表,但有失严密,测定次数较多或要求不高时可以应用它;但测定次数较少时,在一组测定值中即使混有异常值,有时也无法剔除%肖维特法比拉依达法有所改善,但从理论上考虑,当%和!%趋向无穷大的时候,(下转第&&1页) & 5第’&卷第1期赵辉,等:分析数据中离群值的处理方法(
((
万方数据
!!(")技巧串动作的落地稳定性亟待提高#自由体操是很难获得高分的一个比赛项目,这是因为规则规定:“每个技巧动作或技巧串必须是以一个明显地有控制的落地为结束”#其他体操项目都只有一次(跳马决赛只有$次)下法结束整套动作,而自由体操整套动作必须包括至少"%&个高难度的技巧和技巧串动作,要想圆满达到规则要求是相当困难的#因此,从某种意义上说,自由体操决赛类似于跳马决赛,运动员主要比的是落地稳定性# "结论 新规则实施后,世界级运动员自由体操整套动作的结构 已基本定型;单个技巧动作的难度没有大的变化,动作类型以’(或合成’(组的直体后旋或直体后旋回笼等为主;技巧串的动作难度稳步提高,尤其是以直体后空翻转体)+作为开始,连接前空翻及其转体的高难度连接动作,已经成为世界优秀运动员选用的主体,直体前空翻多度转体的技巧串,也有较大的发展空间;在整套动作起评分相同的条件下,提高完成动作的质量, 尤其是技巧和技巧串落地的稳定性,是获得优异成绩的关键#中国在自由体操整套动作的结构和完成质量等方面,都与世界水平有一定的差距,需要改进训练工作,争取在以后的世界大赛中再创辉煌# 参考文献: [,]龚!明#第"-届世锦赛男子自由体操比赛评述[.]#成都体育学院学报,$",($):&-/&0# [$]李!柳#从"&届世界体操锦标赛看自由体操发展的趋势[.]#武汉体育学院学报,$,(1):"1/"-#["]周云涛#关于世界男子自由体操的发展与比较研究[.]#体育学刊,$",(,):20/)# [&]李思民#世界男子竞技体操运动的发展现状与对策[.]#天津体育学院学报,$,($):&$/&1#[1]刘!卫#中外优秀男子体操运动员全能成绩的结构特征[.]#天津体育学院学报,,))),("):2&/2-#[-]王文生#竞技性体操运动训练时间理论的构建[.]#体育科学,$,("
):$1/"*# (上接第2,页) 此时所有的异常值都无法剔除#而!检验法、格鲁布斯法、"检验法和极差法等方法则考虑了置信度的因素,概率意义明确,使所得结果更为科学合理#其中!检验法的优点是方法简便#当测定次数较少时,例如"%1次测定,!检验法拒绝接受的只是偏差很大的测定值,将非异常值判定为异常值的几率是很小,但同时把异常值判断为非异常值的可能性较大#格鲁布斯法不仅设定了一定的置信度,而且引入了平均值和标准偏差,故判断的准确性比!检验法高,被中国国家标准推荐采用,也被美国实验材料协会推荐采用#"检验法在处理数据前,预先“剔除”了被检验的离群值,保证了计算标准偏差的正确性和独立性,在理论上得到了较严格的结果,提高了测定精度和检验的灵敏度#但如果在检验之前预先剔除的数据也可能不是异常值,而只是极值,这样就会造成计算的标准偏差偏小,原来位于限界的一些极值这时也可能被作为异常值舍弃#极差法优点是简便,但在检验时,将本来为异常值而作为异常值保留下来的可能性较大# 徐中秀["] 曾比较了各种检验方法检验离群值 的效果,她对若干混入另一总体数据的情况,各进行了一万次模拟实验,证明格鲁布斯法的效果最好#王 文周[&] 则证明了在犯第一类错误(即真当假)的概 率相同的情况下,"检验法比格鲁布斯法犯第二类错误(即假当真)的概率小,即"检验法的检验功效更高#由于不同的检验方法各自的特点和适用范围, 在处理同一组分析数据时,有可能得到不同的结论#具体采用何种检验方法,应视实验的要求和实际情况而定