一个均值-极差控图子组大小的问题
这是一个来自6SQ品质论坛的问题,原问题是:当每个子组内包含2个样本,共40个子组时,均值控制图上只有一个点超出控制限;当每个子组内包含3个样本,共27个子组时,均值控制图上反而有4个点超出控制限。这是为什么?
下面是我的回答,并在此基础上展开说明如何确定子组的大小。
这是SPC控制图的一个最基本的概念之一。在均值-极差图中,子组越大,则均值上下控制限之间越窄,也就是说,均值控制图越灵敏。这是因为,均值图的控制限公式为:总均值加/减3倍的均值标准差,即:
根据中心极限定理,均值标准差等于单值的标准差除以子组大小n的平方根,
也就是说,子组越大,则均值的标准差就越小,由此计算出来的均值上下限间就越窄。因此,每个子组抽样越多,即子组越大,则均值图上超出控制限的点会越多。
如果使用平均极差来计算控制限,我们可以发现A2这个系数也会随着子组大小的增加而减小。
子组的极差的大小,从理论上来讲,会随着子组大小的增加而增加,但是当子组中样本的数量大于9后,用极差来估计过程标准差时就不准确了,应当使用子组的标准差S来估计了。下图列出了不同子组大小之下,用子组的平均极差和平均标准差来估计过程标准差时的差异。
而当子组在9以下时,极差随子组大小的变化并没有那么明显,特别是当过程处于稳定的状态时候。
由此可见,控制图的抽样方案不同,它发现过程变差的灵敏度也会不同,子组到底应当多大呢?
这要根据你所要控制的过程的能力的大小和对控制图所期望的功效来确定。
我们用6倍的过程标准差定义过程能力(注意:不是过程能力指数CPK)。过程能力越高,说明过程的变差越小,就需要越多的样本才能发现它的变差,反之,过程能力越低,只需要较少的样本就可以探测到过程变差了。打个比方,这就好比是一个班级里有一个2米以上的篮球运动员,要去找到这个运动员,只需要一个样本就可以了;而你去探测一个国旗仪仗队的队员之间的身高差异,你可能就要用高精度的尺子测量所有的队员才可以发现他们之间的身高差异。什么是控制图的功效呢?这里的功效指的是发现均值偏移了K个标准差的概率,如下图所示,其中,β是均值偏移了K个标准差后,控制图探测不到这个偏移的概率,所以1-β就是功效,即探测到这个偏移的概率。从该图中可以发出,要想获得较高的功效,就必须增加子组的大小。
为了确定子组大小,我们还要了解下面几个概念:
1、子组的间隔。它是指多长时间抽取一个子组,一般情况下是间隔相等的时间。但是,要注意,最好是在人、机、料、法、环(4M1E)交替的时候进行抽样,如班次交接时、机器开机或调整设置后、原材料批次变更时等,在这些节骨眼上生产出的产品的特性会有较高的变异机会。
2、受控ARL(平均运行长度)。它是指在没有实际失控的情况下,两次误报警信号之间的子组个数,它是一类错误概率的倒数,即
3、失控ARL。如果我们只使用失控判断准则1,即超出正负3个西格玛的控制限即为失控,则过程在统计受控状态下,均值点会有α=0.27%的概率落在控制限以外,即ARL=1/0.0027≈370,平均约370个点中会有一个点落在控制限以外,即使过程是统计受控的。3、失控ARL。它是指当均值图上有点发生失控后,在所发生的点上看不到这个失控,直到再抽若干次样后才在图上表现出来,这样的抽样次数为失控ARL。它是功效的倒数,即
4、过程性能指数PPK。在这里,我们还未使用控制图,不能判断过程是否受控,所以我们用PPK,而不是用CPK,CPK是过程受控状态下的能力指数。
另外,在确定子组大小之前,我们还要准备下列信息:
1、制造过程每天的运行小时(工作小时)数;
2、两次错误报警间的允许天数,以及从实际失控到发现时的天数,这是由工厂的管理者给出的,这也是对控制图的要求;
3、过程能力/性能指数目标值,这是客户或管理者要求的,假设为1.33,而现在假设实际的能力/性能指数为2.0。
于是,
我们第一步我们先确定子组间隔,如下图所示
第二步,我们确定计算所期望的控制图功效1-β,如下图所示
第三步,我们计算子组的大小,即每个子组的样本数量,我们在此借助于Minitab软件的“单样本Z的功效及样本量”功能,如下图所示
在此还需要说明的一点是,样本数据应当是正态或近似正态的,而且确保子组的均值间呈正态分布。而为了应对可能不够正态的问题,根据中心极限定理,我们需要子组的大小应尽可能多,在本例中应当大于3。
下面是我的回答,并在此基础上展开说明如何确定子组的大小。
这是SPC控制图的一个最基本的概念之一。在均值-极差图中,子组越大,则均值上下控制限之间越窄,也就是说,均值控制图越灵敏。这是因为,均值图的控制限公式为:总均值加/减3倍的均值标准差,即:
根据中心极限定理,均值标准差等于单值的标准差除以子组大小n的平方根,
也就是说,子组越大,则均值的标准差就越小,由此计算出来的均值上下限间就越窄。因此,每个子组抽样越多,即子组越大,则均值图上超出控制限的点会越多。
如果使用平均极差来计算控制限,我们可以发现A2这个系数也会随着子组大小的增加而减小。
子组的极差的大小,从理论上来讲,会随着子组大小的增加而增加,但是当子组中样本的数量大于9后,用极差来估计过程标准差时就不准确了,应当使用子组的标准差S来估计了。下图列出了不同子组大小之下,用子组的平均极差和平均标准差来估计过程标准差时的差异。
而当子组在9以下时,极差随子组大小的变化并没有那么明显,特别是当过程处于稳定的状态时候。
由此可见,控制图的抽样方案不同,它发现过程变差的灵敏度也会不同,子组到底应当多大呢?
这要根据你所要控制的过程的能力的大小和对控制图所期望的功效来确定。
我们用6倍的过程标准差定义过程能力(注意:不是过程能力指数CPK)。过程能力越高,说明过程的变差越小,就需要越多的样本才能发现它的变差,反之,过程能力越低,只需要较少的样本就可以探测到过程变差了。打个比方,这就好比是一个班级里有一个2米以上的篮球运动员,要去找到这个运动员,只需要一个样本就可以了;而你去探测一个国旗仪仗队的队员之间的身高差异,你可能就要用高精度的尺子测量所有的队员才可以发现他们之间的身高差异。什么是控制图的功效呢?这里的功效指的是发现均值偏移了K个标准差的概率,如下图所示,其中,β是均值偏移了K个标准差后,控制图探测不到这个偏移的概率,所以1-β就是功效,即探测到这个偏移的概率。从该图中可以发出,要想获得较高的功效,就必须增加子组的大小。
为了确定子组大小,我们还要了解下面几个概念:
1、子组的间隔。它是指多长时间抽取一个子组,一般情况下是间隔相等的时间。但是,要注意,最好是在人、机、料、法、环(4M1E)交替的时候进行抽样,如班次交接时、机器开机或调整设置后、原材料批次变更时等,在这些节骨眼上生产出的产品的特性会有较高的变异机会。
2、受控ARL(平均运行长度)。它是指在没有实际失控的情况下,两次误报警信号之间的子组个数,它是一类错误概率的倒数,即
3、失控ARL。如果我们只使用失控判断准则1,即超出正负3个西格玛的控制限即为失控,则过程在统计受控状态下,均值点会有α=0.27%的概率落在控制限以外,即ARL=1/0.0027≈370,平均约370个点中会有一个点落在控制限以外,即使过程是统计受控的。3、失控ARL。它是指当均值图上有点发生失控后,在所发生的点上看不到这个失控,直到再抽若干次样后才在图上表现出来,这样的抽样次数为失控ARL。它是功效的倒数,即
4、过程性能指数PPK。在这里,我们还未使用控制图,不能判断过程是否受控,所以我们用PPK,而不是用CPK,CPK是过程受控状态下的能力指数。
另外,在确定子组大小之前,我们还要准备下列信息:
1、制造过程每天的运行小时(工作小时)数;
2、两次错误报警间的允许天数,以及从实际失控到发现时的天数,这是由工厂的管理者给出的,这也是对控制图的要求;
3、过程能力/性能指数目标值,这是客户或管理者要求的,假设为1.33,而现在假设实际的能力/性能指数为2.0。
于是,
我们第一步我们先确定子组间隔,如下图所示
第二步,我们确定计算所期望的控制图功效1-β,如下图所示
第三步,我们计算子组的大小,即每个子组的样本数量,我们在此借助于Minitab软件的“单样本Z的功效及样本量”功能,如下图所示
在此还需要说明的一点是,样本数据应当是正态或近似正态的,而且确保子组的均值间呈正态分布。而为了应对可能不够正态的问题,根据中心极限定理,我们需要子组的大小应尽可能多,在本例中应当大于3。