直方图使用中的常见问题
直方图是用来整理计量值的观测数据,分析其分布状态的统计方法,用于对总体的分布特征进行推断。直方图的作用如下:
(1)检验数据分布的类型,分析数据是否服从正态分布,判断数据有无异常;
(2)与产品规格界限做比较,可直观地判断分布中心是否偏离规格中心,以确定是否需要调整并求出其调整量;还可判断数据分布的散差(分布范围)是否满足规格范围的要求,以确定是否采取缩小散差的技术性措施;
(3)用于进行过程能力调查和不合格品率估计;
(4)客观地反映操作者的技术水平和主观努力程度。
直方图在过程能力调查中应用十分广泛;但在应用中也常常出现许多问题。
1. 对直方图的作用理解不够
当在过程能力调查过程中,我们常常利用直方图整理讲理值的观测数据,用以分析其分布状态,但有时根据观测数据绘制的直方图呈非正态的异常分布。这说明数据已出现了异常。如果在这种状态下,仍旧要继续计算样本平均值、样本标准偏差和过程能力指数 ,则说明他们对直方图检验数据是否服从正态分布的作用理解不够。这种现象时有发生,应予纠正。
我们知道,只要有足够的数据,即使不画直方图也能计算过程能力指数 ,但如果不画直方图就无法判断数据分布的正态性,而过程能力指数 计算的基础条件是数据必须服从正态分布;如果通过画直方图判断分布不属正态分布,就不能再继续进行相应计算。而应先分析数据异常的原因,予以排除后,再重新收集数据,经画直方图确认属正态分布后,才能计算过程能力指数。
2. 样本容量太小
在绘制直方图前抽取的样本容量要适当,但在现场有时可以看到:抽取的样本仅有10-40个数据,就根据这少量观测值绘制直方图,用以分析,其结果误差很大,不宜提倡。
直方图在理论上属于大样本的分析方法,其样本容量要求n<50(一般经常采用n=50-100)。对于抽取数据比较容易的,最好多抽取些数据。
样本容量越大,其误差越小,而对于抽取数据较困难或成本较高的,也可适当少抽取些数据,但数据过少,就失去统计意义。
3. 选用的分组数K不适当
由于介绍直主图的书籍推荐的分组数K差别很大,而且有些书籍推荐的数值偏大,故在现场作直方图时,选取分组数K偏大的情况时有发现,而偏小的情况也偶有出现。
合理地选取分组数K对正确绘制直方图是十分重要的。直方图分组过多或过少都会影响直方图的正确分析,分组过多,会使各组直方的高度参差波动,直方图将是锯齿型,甚至出现空档,不易显示其分布规律,而且利用频数表计算样本平均值和样本标准偏差时,计算量也大。分组过少,则掩盖了组内偏差时,计算量也大。分组过少,则掩盖了组内数据变动,直方图形状过于宽平,对分布状态反映不灵敏,利用频数表计算样本平均值和样本标准偏差时,虽然计算量较小,但计算结果偏离实际值较大,当分组数K适当时,则直方图能够正确反映据分布形态。
分组数K建议按原机械部标准较为合适。
数据个数(N)建议分组数(K)50-1007101-2008201-5009501-100010
4. 组距H圆整后出现的问题
组距H是利用公式H= 计算所得(式中X1 X2分别为全部观测值中的最大值与最小值)。若为小数则必须圆满,但随之将带来分组数K的变化。初学者对此常常感到困惑不解,需要澄清。
从图2所示,由于组距H圆整后取近似值,当H向上圆整时,则实际分组数K将比原选定的分组数H小,当H同上圆整时,由于实际分组数将比原选定的分组数要小,但这并不影响直方图形态和分析的结论。
5. 为什么要求组界值必须比观测值多取一位数。
组界值必须比观测值多取一位数,点初学者常常忽视此要求的目的在于避免在分组后观测值落在组界上,如落在组界上,就不能判断该观测值是属于前一组是后一组。
为了实现上述要求,第1组和第2组的一般有下述3种公式:
1) 第1组下组界=最小值1-2,组距H。但这种方法只有当组距H为奇数时,能使组界值比观测值多一位。
2) 第1组下组界=最小值1-2,有距 观测值的最小测量单位。
3) 第1组下组界=最小值 观测值的最小测量单位。
只要能使组界值比观测值多一位数,不用上述哪个公式都可以,都不影响直方图形状和对直方图分析的结论。
6. 简化数据的问题
观测值(原始数据)有时是很大的数值或者是小数。利用这些数据计算计算样本平均值和样本的标准偏差时,将使计算变得复杂化。为减少计算工作量,避免计算错误,常常要对这些原始数据加以简化,但在利用这些简化后的数据计算其平均值和标准偏差后,如何将之转换成原始数据的平均值和标准偏差,初学者常常茫然不知如何转换。
常用的数据简化及其转换规则简述如下:
1) 每个原始数据X1都减去一个相近于平均值的数值(虚拟平均值),得到简化的数据,利用这些简化后的数据求出其平均值后,再加上虚拟平均值,即为原始数据的平均值。而利用简化的数据计算出的标准偏差,则无需任何转换即为原始数据的标准偏差。
2) 每个原始数据Xi均乘上一个数B,即得到简化后的数据 。由这些简化后的数据求出的平均值,再除以B ,即为原始数据的平均值,而利用简化后的数据 计算出的标准偏差,只要再除以B,即为原始数据的标准偏差。
除此以外,还有其它的简化数据的方法,但常用的就是上述两种方法或将上述两种方法结合使用。如果我们能够熟练地掌握上述两条规则,一般就不会搞错了。
7. 样本平均值和标准偏差的保留位位数问题
人有认为,计算平均值和标准偏差时,数字保留的位数越多,则计算的结果越精确。其实这是一种误解。一般说来,平均值在比观测值(原始数据)倍数多一位的以后各倍数字均与平均值的真值并不相同。平均值保留过多数字并无实际意义,故平均值的位数比观测值数据的位数多一位即可。
同理,标准偏差的有效数字位数应求到3位,但如平均值的位数少于标准偏差,则要求标准偏差与平均值的位数相同即可。
为减少计算误差,应明确对所要求精度以外的数字如何合理取舍问题。这也是现场经常遇到的问题,此时可按数字修约规则处理,这时不再赘述。
8. 直方图的纵横比例关系问题
有的直方图由于对其纵横比例关系掌握不好,使其产生变形,有的画成“又矮又胖”的直方图,影响对其分析。
直方图的横轴为组界值的刻度,其纵轴为频数的刻度。横轴与纵轴的长度比例要适当,一般以2/3为宜,即:横轴长/纵轴长=2/3。
9. 直方图末标注有关资料
绘制直方图后,应在其上标注:收集数据的目的、日期、测定者、样本容量、样本平均值和标准偏差以及产品的规格界限等。
10.不同质的数据混杂在一起
样本必须保证是在同条件下抽取的。不同的操作者、设备、班次材料、工艺方法等情况下所生产的产品不能混放在一起,用抽测这些产品所得的观测值来绘制直方图,将会形成异常的直方图,不能说明问题,应分层后重新抽测数据,再绘制直方图。
(1)检验数据分布的类型,分析数据是否服从正态分布,判断数据有无异常;
(2)与产品规格界限做比较,可直观地判断分布中心是否偏离规格中心,以确定是否需要调整并求出其调整量;还可判断数据分布的散差(分布范围)是否满足规格范围的要求,以确定是否采取缩小散差的技术性措施;
(3)用于进行过程能力调查和不合格品率估计;
(4)客观地反映操作者的技术水平和主观努力程度。
直方图在过程能力调查中应用十分广泛;但在应用中也常常出现许多问题。
1. 对直方图的作用理解不够
当在过程能力调查过程中,我们常常利用直方图整理讲理值的观测数据,用以分析其分布状态,但有时根据观测数据绘制的直方图呈非正态的异常分布。这说明数据已出现了异常。如果在这种状态下,仍旧要继续计算样本平均值、样本标准偏差和过程能力指数 ,则说明他们对直方图检验数据是否服从正态分布的作用理解不够。这种现象时有发生,应予纠正。
我们知道,只要有足够的数据,即使不画直方图也能计算过程能力指数 ,但如果不画直方图就无法判断数据分布的正态性,而过程能力指数 计算的基础条件是数据必须服从正态分布;如果通过画直方图判断分布不属正态分布,就不能再继续进行相应计算。而应先分析数据异常的原因,予以排除后,再重新收集数据,经画直方图确认属正态分布后,才能计算过程能力指数。
2. 样本容量太小
在绘制直方图前抽取的样本容量要适当,但在现场有时可以看到:抽取的样本仅有10-40个数据,就根据这少量观测值绘制直方图,用以分析,其结果误差很大,不宜提倡。
直方图在理论上属于大样本的分析方法,其样本容量要求n<50(一般经常采用n=50-100)。对于抽取数据比较容易的,最好多抽取些数据。
样本容量越大,其误差越小,而对于抽取数据较困难或成本较高的,也可适当少抽取些数据,但数据过少,就失去统计意义。
3. 选用的分组数K不适当
由于介绍直主图的书籍推荐的分组数K差别很大,而且有些书籍推荐的数值偏大,故在现场作直方图时,选取分组数K偏大的情况时有发现,而偏小的情况也偶有出现。
合理地选取分组数K对正确绘制直方图是十分重要的。直方图分组过多或过少都会影响直方图的正确分析,分组过多,会使各组直方的高度参差波动,直方图将是锯齿型,甚至出现空档,不易显示其分布规律,而且利用频数表计算样本平均值和样本标准偏差时,计算量也大。分组过少,则掩盖了组内偏差时,计算量也大。分组过少,则掩盖了组内数据变动,直方图形状过于宽平,对分布状态反映不灵敏,利用频数表计算样本平均值和样本标准偏差时,虽然计算量较小,但计算结果偏离实际值较大,当分组数K适当时,则直方图能够正确反映据分布形态。
分组数K建议按原机械部标准较为合适。
数据个数(N)建议分组数(K)50-1007101-2008201-5009501-100010
4. 组距H圆整后出现的问题
组距H是利用公式H= 计算所得(式中X1 X2分别为全部观测值中的最大值与最小值)。若为小数则必须圆满,但随之将带来分组数K的变化。初学者对此常常感到困惑不解,需要澄清。
从图2所示,由于组距H圆整后取近似值,当H向上圆整时,则实际分组数K将比原选定的分组数H小,当H同上圆整时,由于实际分组数将比原选定的分组数要小,但这并不影响直方图形态和分析的结论。
5. 为什么要求组界值必须比观测值多取一位数。
组界值必须比观测值多取一位数,点初学者常常忽视此要求的目的在于避免在分组后观测值落在组界上,如落在组界上,就不能判断该观测值是属于前一组是后一组。
为了实现上述要求,第1组和第2组的一般有下述3种公式:
1) 第1组下组界=最小值1-2,组距H。但这种方法只有当组距H为奇数时,能使组界值比观测值多一位。
2) 第1组下组界=最小值1-2,有距 观测值的最小测量单位。
3) 第1组下组界=最小值 观测值的最小测量单位。
只要能使组界值比观测值多一位数,不用上述哪个公式都可以,都不影响直方图形状和对直方图分析的结论。
6. 简化数据的问题
观测值(原始数据)有时是很大的数值或者是小数。利用这些数据计算计算样本平均值和样本的标准偏差时,将使计算变得复杂化。为减少计算工作量,避免计算错误,常常要对这些原始数据加以简化,但在利用这些简化后的数据计算其平均值和标准偏差后,如何将之转换成原始数据的平均值和标准偏差,初学者常常茫然不知如何转换。
常用的数据简化及其转换规则简述如下:
1) 每个原始数据X1都减去一个相近于平均值的数值(虚拟平均值),得到简化的数据,利用这些简化后的数据求出其平均值后,再加上虚拟平均值,即为原始数据的平均值。而利用简化的数据计算出的标准偏差,则无需任何转换即为原始数据的标准偏差。
2) 每个原始数据Xi均乘上一个数B,即得到简化后的数据 。由这些简化后的数据求出的平均值,再除以B ,即为原始数据的平均值,而利用简化后的数据 计算出的标准偏差,只要再除以B,即为原始数据的标准偏差。
除此以外,还有其它的简化数据的方法,但常用的就是上述两种方法或将上述两种方法结合使用。如果我们能够熟练地掌握上述两条规则,一般就不会搞错了。
7. 样本平均值和标准偏差的保留位位数问题
人有认为,计算平均值和标准偏差时,数字保留的位数越多,则计算的结果越精确。其实这是一种误解。一般说来,平均值在比观测值(原始数据)倍数多一位的以后各倍数字均与平均值的真值并不相同。平均值保留过多数字并无实际意义,故平均值的位数比观测值数据的位数多一位即可。
同理,标准偏差的有效数字位数应求到3位,但如平均值的位数少于标准偏差,则要求标准偏差与平均值的位数相同即可。
为减少计算误差,应明确对所要求精度以外的数字如何合理取舍问题。这也是现场经常遇到的问题,此时可按数字修约规则处理,这时不再赘述。
8. 直方图的纵横比例关系问题
有的直方图由于对其纵横比例关系掌握不好,使其产生变形,有的画成“又矮又胖”的直方图,影响对其分析。
直方图的横轴为组界值的刻度,其纵轴为频数的刻度。横轴与纵轴的长度比例要适当,一般以2/3为宜,即:横轴长/纵轴长=2/3。
9. 直方图末标注有关资料
绘制直方图后,应在其上标注:收集数据的目的、日期、测定者、样本容量、样本平均值和标准偏差以及产品的规格界限等。
10.不同质的数据混杂在一起
样本必须保证是在同条件下抽取的。不同的操作者、设备、班次材料、工艺方法等情况下所生产的产品不能混放在一起,用抽测这些产品所得的观测值来绘制直方图,将会形成异常的直方图,不能说明问题,应分层后重新抽测数据,再绘制直方图。
没有找到相关结果
已邀请:
7 个回复
fact91 (威望:28) (其他 其他) 在校学生 员工
赞同来自:
寫那麼多,看來我要好好研讀了