您还没有绑定微信,更多功能请点击绑定

服务类六西格玛的独特技术挑战-非正态数据处理战略

对于非正态数据(或偏斜分布),我通常处理的战略如下,供读者参考。
1)什么都不做:即继续做下去,仿佛数据是正态分布的一样进行处理。当满足以下三个标准中的任何一个,这个方法就可取:a.数据近似正态;b.使用统计分析工具是基于均值的;c.使用的统计分析工具对正态假设不敏感。对于非常之的数据,经正态检验分析,一般都不是正态分布的。因为现实中的数据没有完全正态的,同时也因数以万计甚至10万计的大容量样本提供了足够统计学力量来察觉与完全正态分布的微小差别。在很多此类情况下,数据图表揭示了一个近似正态分布,这对实用目的来说已经足够了。如果正在通过如t检验或方差分析等技术来比较均值,中心极限定理使正态假设变得不太重要。因此使用此方法,你可很少需要考虑正态性,哪怕样本只有5个,你也可继续采用这些建议,而不用管是否为常态。另外回归分析中的系数估计是另一个对正态假设不敏感的技术例子。
2)利用适当的分布识别技术:在有些情况下,你可以确定数据服从那种特殊的非正态分布。如有些周期时间数据趋向于服从威布尔分布。比较幸运有些统计分析工具软件中有为处理威布尔分布数据专门制定的菜单。类似的广义线性模型的回归分析方法,能使使用者对大量的服从不同分布的数据进行恰当的分析,包括指数分布甚至是离散分布。
3)利用非参数统计分析工具:在你不知道数据会满足何种分布时此方法特别适用。这些方法没有特殊概率分布的假设,因此对大量的潜在问题和数据都适用;但有一点需记得,一般非参数建议不如基于特定分布的检验有效;
4)利用变换:当变换是一个非线性函数,就有能力把偏斜的数据正态化为近似正态,至少在某些情况下是可以的。常用的包括对数、平方根、(特别对于离散的数据)和倒数。为了找到恰当的变换,可用Box-Cox法。但在分享结果时记得要把变换了的单位记得转回最初的单位,否别人就看不懂。

总而言之,制造领域以外的六西格玛应用中的很多数据不是正态分布或接近正态分布的。虽然在统计学中正态假设可能很重要,但很多时候不是这样的。即便这个假设很重要,黑带应能采用有效的分析工具来分析这些数据。因此缺乏正态性是一个值得思考的技术问题,但不是一个恰当地应用六西格玛方法的一个障碍。
对“好”的回答一定要点个"赞",回答者需要你的鼓励!
已邀请:

0 个回复,游客无法查看回复,更多功能请登录注册

发起人

wf.ch_2001_81
wf.ch_2001_81

3年工程师 BB 3 年

扫一扫微信订阅<6SQ每周精选>