什么时候适合使用逐步回归?
我发现了一个很有意思的例子,是关于识别某制造厂的主要能源使用来源。
什么时候适合使用逐步回归?
当您有许多变量并且想确认有用的预测变量子集时,逐步回归就是一种合适的分析方法。在 Minitab 中,标准的逐步回归程序每次都只添加和删除一个预测变量。当模型中未包含的所有变量的 p 值都大于指定的入选用 Alpha 值,且模型中所有变量的 p 值都小于或等于指定的删除用 Alpha 值时,Minitab 停止。除了标准逐步法外,Minitab 还提供另两种逐步程序:
* 向前选择法: Minitab 以模型中没有任何预测变量开始,并为每个步骤添加最显著的变量。当模型中未包含的所有变量的 p 值都大于指定的入选用 Alpha 值,Minitab 将停止。
* 向后消元法: Minitab 以模型中包含所有预测变量开始,并删除每个步骤的最小显著项。当模型中包含的所有变量的 p 值都小于或等于指定的删除用 Alpha 值时,Minitab 将停止。
逐步回归示例
本示例使用逐步回归识别主要的能源使用来源。制造厂的分析师考虑了以下预测变量:生产产品总数、设备总运行时间、员工人数、平均室外温度、最低室外温度、最高室外温度、日照百分率以及设备平均寿命。但值得注意的是,当预测变量达到 100 个以上时,逐步回归会非常有用!
他们的目的是将这些变量缩小到能源使用的主要预测变量列表中。为得到最终模型,在 Minitab 中选择统计 > 回归 > 逐步,并输入响应“能源”和上面的预测变量列表来完成对话框。
他们的目的是将这些变量缩小到能源使用的主要预测变量列表中。为得到最终模型,在 Minitab 中选择统计 > 回归 > 逐步,并输入响应“能源”和上面的预测变量列表来完成对话框。
他们得到了下面的模型,该模型中包含了设备总运行时间、最高温度和设备平均寿命三个预测变量。Minitab 删除了其他变量,因为这些变量的 p 值大于入选用 Alpha 值。
为获得最终模型,分析师选择统计 > 回归 > 回归,并通过将“能源”作为响应,且三个显著变量作为预测变量来完成对话框。(要检查残差图,在对话框中选择图形,然后在残差图下,选择四合一。)
以下回归方程表明,随着设备总运行时间、最高温度和设备平均寿命的增加,能源使用也相应增加:
根据 T 统计值,设备总运行时间的影响最大,最高温度次之,然后是设备平均寿命。
通过分析,分析师可以得出这样的结论:由于大量使用空调,能源使用显著增高;而较新的设备看上去降低了能源使用。工厂可能想要在持续使用空调的高峰期限制设备的运行,并考虑在夏季来临前购置新设备。
P逐步回归的陷阱
虽然逐步回归能帮助我们了解很多,但也存在一些需要注意的潜在陷阱:
· 如果两个独立变量高度相关,那么即使他们都很重要,模型中可能只包含其中一个。
· 由于该程序可以拟合许多模型,因此可能只是偶然的选择了恰好拟合数据的模型。
· 对于给定数量的预测变量,逐步回归可能不会总是以具有最高 R2 值的模型结束。
· 自动程序无法考虑分析师可能掌握对数据的特殊知识。因此,所选的模型可能不是最实用的。
· 根据响应来绘制单个预测变量图通常具有误导性,因为图形没有考虑模型中的其他预测变量。 收起阅读 »
什么时候适合使用逐步回归?
当您有许多变量并且想确认有用的预测变量子集时,逐步回归就是一种合适的分析方法。在 Minitab 中,标准的逐步回归程序每次都只添加和删除一个预测变量。当模型中未包含的所有变量的 p 值都大于指定的入选用 Alpha 值,且模型中所有变量的 p 值都小于或等于指定的删除用 Alpha 值时,Minitab 停止。除了标准逐步法外,Minitab 还提供另两种逐步程序:
* 向前选择法: Minitab 以模型中没有任何预测变量开始,并为每个步骤添加最显著的变量。当模型中未包含的所有变量的 p 值都大于指定的入选用 Alpha 值,Minitab 将停止。
* 向后消元法: Minitab 以模型中包含所有预测变量开始,并删除每个步骤的最小显著项。当模型中包含的所有变量的 p 值都小于或等于指定的删除用 Alpha 值时,Minitab 将停止。
逐步回归示例
本示例使用逐步回归识别主要的能源使用来源。制造厂的分析师考虑了以下预测变量:生产产品总数、设备总运行时间、员工人数、平均室外温度、最低室外温度、最高室外温度、日照百分率以及设备平均寿命。但值得注意的是,当预测变量达到 100 个以上时,逐步回归会非常有用!
他们的目的是将这些变量缩小到能源使用的主要预测变量列表中。为得到最终模型,在 Minitab 中选择统计 > 回归 > 逐步,并输入响应“能源”和上面的预测变量列表来完成对话框。
他们的目的是将这些变量缩小到能源使用的主要预测变量列表中。为得到最终模型,在 Minitab 中选择统计 > 回归 > 逐步,并输入响应“能源”和上面的预测变量列表来完成对话框。
他们得到了下面的模型,该模型中包含了设备总运行时间、最高温度和设备平均寿命三个预测变量。Minitab 删除了其他变量,因为这些变量的 p 值大于入选用 Alpha 值。
为获得最终模型,分析师选择统计 > 回归 > 回归,并通过将“能源”作为响应,且三个显著变量作为预测变量来完成对话框。(要检查残差图,在对话框中选择图形,然后在残差图下,选择四合一。)
以下回归方程表明,随着设备总运行时间、最高温度和设备平均寿命的增加,能源使用也相应增加:
根据 T 统计值,设备总运行时间的影响最大,最高温度次之,然后是设备平均寿命。
通过分析,分析师可以得出这样的结论:由于大量使用空调,能源使用显著增高;而较新的设备看上去降低了能源使用。工厂可能想要在持续使用空调的高峰期限制设备的运行,并考虑在夏季来临前购置新设备。
P逐步回归的陷阱
虽然逐步回归能帮助我们了解很多,但也存在一些需要注意的潜在陷阱:
· 如果两个独立变量高度相关,那么即使他们都很重要,模型中可能只包含其中一个。
· 由于该程序可以拟合许多模型,因此可能只是偶然的选择了恰好拟合数据的模型。
· 对于给定数量的预测变量,逐步回归可能不会总是以具有最高 R2 值的模型结束。
· 自动程序无法考虑分析师可能掌握对数据的特殊知识。因此,所选的模型可能不是最实用的。
· 根据响应来绘制单个预测变量图通常具有误导性,因为图形没有考虑模型中的其他预测变量。 收起阅读 »
Minitab 分析揭示了顶级度假租赁提供商令人惊讶的旅行者偏好
TELUS International 是一家为全球客户提供多语言数字客户体验和数字 IT 解决方案的提供商。客户包括技术和游戏、通信和媒体、电子商务和金融科技、旅游和酒店以及医疗保健领域的公司。
COVID-19 大流行给许多行业带来了沉重打击——旅游和酒店业是受灾最严重的行业之一。我们的一位客户在世界各地出租度假屋和梦想之地,立即受到旅游业停摆的影响。该公司将大部分客户服务外包给 TELUS International。
管理大量取消的预订
当隔离和规定突然变得不可能时,我们的客户不得不管理所有被取消的预订,这既不是业主的错,也不是旅客的错。这种情况的性质是前所未有的。对于取消,没有千篇一律的解决方案。由于预订时的政策和协议,部分旅客无法获得全额退款;任何给定情况都有不同程度的退款。
尽管取消预订既不是由我们的客户也不是客人造成的,但我们发现在此期间客户满意度评级出现了惊人的下降。我们特别感兴趣的是,客户对情况的管理方式而不是取消的结果不满意。
检验假设以改善客户体验
我们开始问,“我们怎样才能让它变得更好”?从技术的角度来看,我们的客户使用一流的 AI 技术来确保捕获、存储问题并向座席提出建议,以便在他们下次联系时解决客户的问题,无论是聊天、电子邮件还是电话. 然而,我们注意到最大的诋毁者来自聊天和电子邮件。
考虑到行业从客户满意度到客户努力的转变,这是令人惊讶的。在这个基于应用程序的人群中拜访客户被认为是浪费时间,他们宁愿在做其他更有意义的事情时聊天并解决他们的问题。我们认为我们一直在为客户提供他们想要的东西:一种“非接触式”客户支持方式。
是时候重新考虑我们一直在做的一切了。这就是 Minitab 成为我们宝贵工具的地方。使用 Minitab,我们能够执行假设检验以找到不满意的客户服务评论的根本原因。我们获得的分析和见解是出乎意料的,但我们坚信它是准确的并且反映了旅行者的需求。
最后,我们能够与领导团队分享我们的 Minitab 分析。因此,进行了新技术投资,为公司的代理商和整个客户服务团队提供了全新的方法和方向。
收起阅读 »
假设检验的功效和样本数量
在假设检验中,我们会使用样本中的数据来描绘有关总体的结论。首先,我们会进行假设,这被称为原假设(以 H0 表示)。当您进行原假设时,您也需要定义备选假设 (Ha),其与原假设正相反。样本数据将用于判断 H0 是否可以被否定。如果其被否定,则统计结论将认为备选假设 Ha 正确。
请记住这一检验的功效,或是在原假设不正确时,原假设被否定的可能性。
它可以解释为“检验在应该拒绝原假设时拒绝原假设的能力”。如果原假设不正确,则有很高概率拒绝原假设是很有意义的。功效与类型 2 的错误相关(功效 = 1 - 类型 2 错误),请见下表。类型 2 错误是当备选假设正确时不拒绝原假设的概率。因此,确保有足够高的功效,才能保证类型 2 错误较低或“可以接受”。确保检验有足够功效的一种常用方法是收集足够的数据,因为功效的计算取决于样本数量等因子。样本数量越大,功效越高。换言之,未能收集足够的数据将导致低功效和大量类型 2 错误。
最重要的是要找到合适的样本数量。显而易见,未能收集足够的数据会导致更多的类型 2 错误。但是,收集“过多”的数据也会增加类型 1 错误,因为检验的功效会更高。因此,该检验可能会检测到与假设值的微小差异,即使该差异可能没有任何实际意义,尤其是与抽样成本有关时。检验功效的计算应当基于实际意义。
MINITAB具有通过多种不同统计检验计算功效的功能
在下列示例中,分析人员在 Minitab 中通过单比率检验和单样本 t 检验,进行了功效和样本数量分析。
单比率检验样本数量
考虑将产品分类为好或差的制造过程,其中有 1% 的不良品率。如果不良品率上升至 3%,则会对整个组织造成严重的成本问题。他们需要确定合适的样本数量,以满足:类型 I 错误率为 0.05,检验功效为 0.80,以检测出不良品率从 1% 上升至 3% 或更高。
因为分析人员对不良品率研究感兴趣,他们使用了单比率检验。原假设和备选假设是:
Ho: P = 0.01
Ha: P > 0.01
其中 P 为实际缺陷比率。
为了找出需要多少数据点才能达到至少0.8的功效,分析人员在 Minitab 中进行了单比率检验的功效和样本数量分析。
单样本 t 检验的样本数量
将产品分类为好或差很简单,但会损失很多信息。将好产品视为在 5 到 10 之间。假如有 2 个单元测得的数值为 4.9 和 10.01,并因而归入差的分类。假如有另外 2 个单元测得的数值为 2.3 和 14.1,并因而归入差的分类。请注意,如果只是简单的区分好和差,这两种情况是相同的。因此,如果测量产品质量特征是可行的,那么分析人员应该记录质量特征的实际值,并使用记录的数据 – 无需转换为好和差。单样本 t 检验可以用于检验总体的均值是否与目标一致。如果样本数据的均值接近“目标”,则该过程可能运行良好。如果均值不接近目标,则可能生产出缺陷产品。
例如,假设该产品特征为特定目标的孔直径。分析人员可以测量每个产品上的孔直径,并使用单样本 t 检验将均值与目标值进行比较,而不是检查 236 个产品以确定孔是否符合规格。
为了找出需要多少数据点来检测至少 80% 功效的过程均值中的 1 西格玛偏移,分析人员在 Minitab 中对一个单样本 t 检验进行功效和样本数量分析。
计算的样本数量仅为 10。这意味着如果分析人员希望确定目标的偏离均值是否超过了 1 西格玛,则他们需要进行 10 个单位的单样本 t 检验,以获得至少 80% 的功效。
为什么会有这么大的区别?
属性数据的假设检验需要大量样本,因为在收集数据时没有获取详细信息。另一方面,连续数据的假设检验只需较少的样本数量,因为其获取并使用了产品的详细信息。该理论不仅适用于功效。属性数据需要大量样本以用于置信区间、属性一致性分析、控制图和能力分析。
总之,重要的是进行具有足够功效的假设检验,以提供合理的机会来检测差异。功效与样本数量直接相关。Minitab 具有计算多种不同假设检验(包括试验设计)的功效的功能。
本文最初出现在Minitab博客上。
收起阅读 »
请记住这一检验的功效,或是在原假设不正确时,原假设被否定的可能性。
它可以解释为“检验在应该拒绝原假设时拒绝原假设的能力”。如果原假设不正确,则有很高概率拒绝原假设是很有意义的。功效与类型 2 的错误相关(功效 = 1 - 类型 2 错误),请见下表。类型 2 错误是当备选假设正确时不拒绝原假设的概率。因此,确保有足够高的功效,才能保证类型 2 错误较低或“可以接受”。确保检验有足够功效的一种常用方法是收集足够的数据,因为功效的计算取决于样本数量等因子。样本数量越大,功效越高。换言之,未能收集足够的数据将导致低功效和大量类型 2 错误。
最重要的是要找到合适的样本数量。显而易见,未能收集足够的数据会导致更多的类型 2 错误。但是,收集“过多”的数据也会增加类型 1 错误,因为检验的功效会更高。因此,该检验可能会检测到与假设值的微小差异,即使该差异可能没有任何实际意义,尤其是与抽样成本有关时。检验功效的计算应当基于实际意义。
MINITAB具有通过多种不同统计检验计算功效的功能
在下列示例中,分析人员在 Minitab 中通过单比率检验和单样本 t 检验,进行了功效和样本数量分析。
单比率检验样本数量
考虑将产品分类为好或差的制造过程,其中有 1% 的不良品率。如果不良品率上升至 3%,则会对整个组织造成严重的成本问题。他们需要确定合适的样本数量,以满足:类型 I 错误率为 0.05,检验功效为 0.80,以检测出不良品率从 1% 上升至 3% 或更高。
因为分析人员对不良品率研究感兴趣,他们使用了单比率检验。原假设和备选假设是:
Ho: P = 0.01
Ha: P > 0.01
其中 P 为实际缺陷比率。
为了找出需要多少数据点才能达到至少0.8的功效,分析人员在 Minitab 中进行了单比率检验的功效和样本数量分析。
单样本 t 检验的样本数量
将产品分类为好或差很简单,但会损失很多信息。将好产品视为在 5 到 10 之间。假如有 2 个单元测得的数值为 4.9 和 10.01,并因而归入差的分类。假如有另外 2 个单元测得的数值为 2.3 和 14.1,并因而归入差的分类。请注意,如果只是简单的区分好和差,这两种情况是相同的。因此,如果测量产品质量特征是可行的,那么分析人员应该记录质量特征的实际值,并使用记录的数据 – 无需转换为好和差。单样本 t 检验可以用于检验总体的均值是否与目标一致。如果样本数据的均值接近“目标”,则该过程可能运行良好。如果均值不接近目标,则可能生产出缺陷产品。
例如,假设该产品特征为特定目标的孔直径。分析人员可以测量每个产品上的孔直径,并使用单样本 t 检验将均值与目标值进行比较,而不是检查 236 个产品以确定孔是否符合规格。
为了找出需要多少数据点来检测至少 80% 功效的过程均值中的 1 西格玛偏移,分析人员在 Minitab 中对一个单样本 t 检验进行功效和样本数量分析。
计算的样本数量仅为 10。这意味着如果分析人员希望确定目标的偏离均值是否超过了 1 西格玛,则他们需要进行 10 个单位的单样本 t 检验,以获得至少 80% 的功效。
为什么会有这么大的区别?
属性数据的假设检验需要大量样本,因为在收集数据时没有获取详细信息。另一方面,连续数据的假设检验只需较少的样本数量,因为其获取并使用了产品的详细信息。该理论不仅适用于功效。属性数据需要大量样本以用于置信区间、属性一致性分析、控制图和能力分析。
总之,重要的是进行具有足够功效的假设检验,以提供合理的机会来检测差异。功效与样本数量直接相关。Minitab 具有计算多种不同假设检验(包括试验设计)的功效的功能。
本文最初出现在Minitab博客上。
收起阅读 »
实现QDAS里的概率分布功能
了解QDAS的人都知道其中有一个概率分布的功能,一般多用来演示和培训使用,功能也很简单,可以说是统计方面非常基础的东西。自己在学习统计的过程中,利用闲暇之时,用C#(python实现更容易)做了一个网页版的概率分布演示功能,实行了大部分的分布及功能,还留有部分功能未实现,之后会不定时地做更新和完善。
收起阅读 »
收起阅读 »
方差分析在等离子蚀刻中的应用
一、案例背景
在集成电路的许多生产步骤中,晶片被一层材料(如二氧化硅或某种金属)完全覆盖。通过对掩模的蚀刻有选择性地除去不需要的材料,从而创建电路模板、电互连以及必须扩散的或者金属沉积的区域。等离子蚀刻工序在这个操作中被广泛使用,特别是在几何对象比较小的情况下的应用。下图展示了一种典型的单晶片蚀刻设备的重要特征。特此说明:案例来自蒙哥马利的《实验设计与分析》一书。
射频(RF)发生器提供能源使得电极之间的间隙产生等离子,等离子体的化学种类是由所使用的特定气体决定的。碳氟化合物,比如CF4(四氟甲烷)或C2F6(六氟乙烷),通常被用在等离子蚀刻上。但是根据应用情况的不同,也常使用其他的气体或混合气体。
工程师要研究这套设备的RF功率设置与蚀刻率间的关系。实验目的是开发工程师要确定RF功率设置是否影响蚀刻率。她选定了气体(C2F6)和间隙(0.80 cm),想检验RF功率的4个水平:160W,180W,200W和220W。她决定在RF功率的每个水平上检验5个晶片。
这是一个因子水平为4和重复次数为5的单因子实验。这20个试验都是按照随机顺序进行的。
二、分析之前注意事项
一个好的试验设计分析,重点和难点往往不是在如何“分析”它(我相信通过本次案例,您也会借助Minitab做方差分析),而是在于如何“设计”这个试验,如何制定数据收集计划。对于设计得很差的试验,你做不了任何分析。你只能搬出具尸体,找出他的死亡原因。
Fisher曾经说过设计一个试验就像和魔鬼玩机会游戏一样,你无法预测他会使出什么样的高招让你的努力作废。在单晶片蚀刻中亦是如此,为防止未知讨厌变量的影响,随机化试验顺序是必要的,因为实验中讨厌变量的变化也许会超出控制范围。从而损害实验结果。为了方便大家对随机化的理解,请参考如下说明图。
知道了随机化的重要性,哪如何做到随机化呢?我发现很多朋友喜欢按照顺序做试验(先把功率为160的五次试验做完,再做180的,再做200的,最后再做功率为220的五次试验),这就不是我们所说的随机化顺序了。这种按照顺序方式做试验,最后的统计结论往往会变成管理者会议上的争论(我会在后续文章中分享这个故事)。
为了随机化,我们可以在Minitab中执行以下操作:
1.首先我们新建一“标准顺序”列,编号从1到20。
计算-生成模板数据-简单数集
2.计算-生成模板数据-任意数集
3.计算-随机数据-来自列的样本
我们按照生成的随机化顺序(C3列运行序)做试验,第一次做功率为160的,第二次做功率为220的……(试验都做了,钱都花了,就不要想着偷懒了)。
最终,得到以上试验数据(按照随机化顺序做的)。
三、Minitab操作步骤
在这里我们是想对单因子(功率)4个水平(160、180、200、220)下的蚀刻率均值做比较,这里我们可以使用方差分析。
1.路径:统计-方差分析-单因子
2.Minitab结果解释
从“方差分析”表中,我们看到检验的P值等于0,小于0.05,故拒绝所有均值都相等的原假设,从而得到4个功率下蚀刻率均值有显著差异的结论。Minitab还同步输出了下面的区间图,从图中可以发现随着功率增大蚀刻率增大。
当然,你也可以进一步做多重比较。
四、小结
本篇文章着重向大家强调了试验中“随机化”的重要性以及如何安排随机化试验,我也希望大家能够在后续试验安排做到随机化(我知道,这确实不容易)。一个研究所需要的准备工作远比选择一个统计设计重要得多,统计基于你试验收集的数据,它不会撒谎。但如果试验本身就安排不合理(如没有随机化),利用这个试验获得的数据执行统计分析,那么这时候得到的统计结论有多少能够反映实际生产状况就不得而知了。 收起阅读 »
在集成电路的许多生产步骤中,晶片被一层材料(如二氧化硅或某种金属)完全覆盖。通过对掩模的蚀刻有选择性地除去不需要的材料,从而创建电路模板、电互连以及必须扩散的或者金属沉积的区域。等离子蚀刻工序在这个操作中被广泛使用,特别是在几何对象比较小的情况下的应用。下图展示了一种典型的单晶片蚀刻设备的重要特征。特此说明:案例来自蒙哥马利的《实验设计与分析》一书。
射频(RF)发生器提供能源使得电极之间的间隙产生等离子,等离子体的化学种类是由所使用的特定气体决定的。碳氟化合物,比如CF4(四氟甲烷)或C2F6(六氟乙烷),通常被用在等离子蚀刻上。但是根据应用情况的不同,也常使用其他的气体或混合气体。
工程师要研究这套设备的RF功率设置与蚀刻率间的关系。实验目的是开发工程师要确定RF功率设置是否影响蚀刻率。她选定了气体(C2F6)和间隙(0.80 cm),想检验RF功率的4个水平:160W,180W,200W和220W。她决定在RF功率的每个水平上检验5个晶片。
这是一个因子水平为4和重复次数为5的单因子实验。这20个试验都是按照随机顺序进行的。
二、分析之前注意事项
一个好的试验设计分析,重点和难点往往不是在如何“分析”它(我相信通过本次案例,您也会借助Minitab做方差分析),而是在于如何“设计”这个试验,如何制定数据收集计划。对于设计得很差的试验,你做不了任何分析。你只能搬出具尸体,找出他的死亡原因。
Fisher曾经说过设计一个试验就像和魔鬼玩机会游戏一样,你无法预测他会使出什么样的高招让你的努力作废。在单晶片蚀刻中亦是如此,为防止未知讨厌变量的影响,随机化试验顺序是必要的,因为实验中讨厌变量的变化也许会超出控制范围。从而损害实验结果。为了方便大家对随机化的理解,请参考如下说明图。
知道了随机化的重要性,哪如何做到随机化呢?我发现很多朋友喜欢按照顺序做试验(先把功率为160的五次试验做完,再做180的,再做200的,最后再做功率为220的五次试验),这就不是我们所说的随机化顺序了。这种按照顺序方式做试验,最后的统计结论往往会变成管理者会议上的争论(我会在后续文章中分享这个故事)。
为了随机化,我们可以在Minitab中执行以下操作:
1.首先我们新建一“标准顺序”列,编号从1到20。
计算-生成模板数据-简单数集
2.计算-生成模板数据-任意数集
3.计算-随机数据-来自列的样本
我们按照生成的随机化顺序(C3列运行序)做试验,第一次做功率为160的,第二次做功率为220的……(试验都做了,钱都花了,就不要想着偷懒了)。
最终,得到以上试验数据(按照随机化顺序做的)。
三、Minitab操作步骤
在这里我们是想对单因子(功率)4个水平(160、180、200、220)下的蚀刻率均值做比较,这里我们可以使用方差分析。
1.路径:统计-方差分析-单因子
2.Minitab结果解释
从“方差分析”表中,我们看到检验的P值等于0,小于0.05,故拒绝所有均值都相等的原假设,从而得到4个功率下蚀刻率均值有显著差异的结论。Minitab还同步输出了下面的区间图,从图中可以发现随着功率增大蚀刻率增大。
当然,你也可以进一步做多重比较。
四、小结
本篇文章着重向大家强调了试验中“随机化”的重要性以及如何安排随机化试验,我也希望大家能够在后续试验安排做到随机化(我知道,这确实不容易)。一个研究所需要的准备工作远比选择一个统计设计重要得多,统计基于你试验收集的数据,它不会撒谎。但如果试验本身就安排不合理(如没有随机化),利用这个试验获得的数据执行统计分析,那么这时候得到的统计结论有多少能够反映实际生产状况就不得而知了。 收起阅读 »
优思学院|神奇的统计:从诸葛亮草船借箭说起 - 六西格玛
在抽象的意义下,一切科学都是数学;在理性的世界里,所有的判断都是统计学。─C. R. 劳
从城邦政情到统计学
统计学是透过搜集、整理、分析、描述资料等手段,以推断所测量物的性质、本质乃至未来的一门学科,需要运用许多数学知识。统计起源于何时何地已经很难说清,有人说是古埃及,有人说是古巴比伦,也有史料记载是西元前二千年左右的夏朝,统治者为了征兵和征税而进行了人口统计。
到了周朝,“司书”一职首次在中国历史上出现,相当于今日的行政院主计总处处长。西方最早关于统计的记载则是《圣经.旧约》,引用了犹太人的人口统计结果。
人口统计若仅仅是小范围的,即使包括了人数、年龄、收入、性别、身高、体重等多项指标,也派不上大用场。随着统计人数的增加,例如一座城市的市民、一整个省的女性,以及统计指标的增加,例如健康状况、家庭经济状况和寿命等,才能逐渐体现出统计的规律和价值。
西元前四世纪,亚里斯多德撰写的“城邦政情”(matters of state)共包含了一百五十余种纪要,内容涉及希腊各个城邦的历史、行政、科学、艺术、人口、资源和财富等社会和经济情况及其比较分析。
“城邦政情”式的统计延续了二千多年,直至十七世纪中叶才逐渐被“政治算术”(political arithmetic)这个颇有意味的名称替代,并且很快演化为“统计学”(statistics)。最初,它只是一个德文词汇 statistik,保留了城邦(state)的词根,本义是研究国家和社会状况的数量关系。后来,欧洲各国相继翻译,法文为 statistique,义大利文为 statistica,然后是英文。
值得一提的是,英语中的统计学家和统计员是同一个字,正如数学家和数学工作者是同一个单词一样。日语最初把“统计学”译为“政表”、“政算”、“国势”、“形势”,一八八○年才确定为“统计”。一九○三年,横山雅南的著作《统计讲义录》被译成中文出版,“统计”一词也从日本传到了中国,与“数学”这个词语的来历相同。
既然统计学的主要工作是与资料打交道,资料通常又有随机性,就涉及了另外一个统计学术语─概率。随机意味着不确定性,但也并非没有规律可循,这时就需要用概率来描述。例如,经验告诉我们,投掷硬币出现正面朝上结果的概率约为1/2,投掷骰子结果为六点的概率是1/6。
更多时候,我们需要进行大规模的统计才能知道一件事发生的概率。例如某航班的准点率、某地某日的降水概率。而我们在透过计算获得概率的同时,也掌握了相应的统计规律。不过,统计与概率是有差异的。计算一个有四十位学生的班级是否有人同一天生日的概率,与具体统计他们的生日,两者并不一样,而且不同班级(即便人数相同)的统计结果也不相同。
草船借箭可有其事?
如同脚踏车的发明使得人们扩大了交流范围,弓箭的发明也拓宽了人们的活动范围。有了弓箭,人类便可走出山洞,离开茂密的森林,在广阔的丘陵或平原安家。弓箭不但增强人们的安全防御能力,也帮助他们获取更多猎物,为人类的繁衍创造良好的物质条件。
弓箭大约诞生于三万年前的旧石器时代晚期,它是冷兵器时代最可怕的致命武器。弓箭由弓和箭两部分组成,其中的弓由有弹性的臂和有韧性的弦构成;箭则包括了箭头、箭杆和箭羽,箭头为铜或铁制,杆为竹或木质,羽为鵰或鹰的羽毛。射手拉弓时,手指上还有保护工具。
恩格斯(Friedrich Engels)说过,“弓、弦、箭已经是很复杂的工具,发明这些工具需要长期积累的经验和较为发达的智力。”弓箭的发明或许与音乐的起源有某种关系,二十世纪英国科学史家 J.D.贝尔纳(J. D. Bernal)认为,“弓弦弹出的汪汪粗音可能是弦乐器的起源”。
在《诗经.小雅》里有一首诗写到了“角弓”,即弓箭。这首诗劝告周王不要疏远兄弟亲戚而亲近小人,为民众做出表率。首章四句是:“骍骍角弓,翩其反矣。兄弟昏姻,无胥远矣。”骍骍指的是弦和弓调和的样子,翩是弯曲,昏姻即婚姻或姻亲,意为“把角弓调和绷紧弦,弦松弛的话会转向。兄弟姻亲是一家人,相互亲爱可别疏远”。
中国古代神话有“后羿射日”的故事。古典小说里一方面有许多神箭手,例如吕布辕门射戟、薛仁贵三箭定天下、养由基百步穿杨等,另一方面,打不赢就放箭的例子同样比比皆是,清代如莲居士的传奇小说《说唐》里的罗成武艺高强,最终却陷于淤泥并死于乱箭。
一般士兵的射术可没有神箭手那么精准。假设单次射中目标的概率为 0.1,没射中的概率就是 0.9,连续两次射不中的概率为 0.9×0.9=0.81。依此类推,一百次都射不中的概率为 0.9100≈0.00003,那么至少射中一次的概率为“1–0.00003=99.997%”。
即便要求至少射中目标三次,概率仍高达 98.41%。由此可见,与其费力去找神箭手,不如让一百名士兵乱箭齐发,效果更好。在罗贯中的历史小说《三国演义》里,长坂坡(今湖北荆门)一役成就了赵子龙的传奇,其实曹操下令不许放箭可能也发挥了不可或缺的作用。
再来看诸葛亮草船借箭,传说中取到了十万支箭。依据罗贯中的描述,当时江上大雾弥漫,士兵放箭基本上是闻声寻的,命中概率估计不到 0.1,中间还要调转船身,用另一面接箭,自然会射空。即便射中概率不变,至少也需要射一百万支箭。当时曹操的弓箭手仅一万名,代表每人需射一百支,但专家分析这不太可能,因为古时一个箭壶通常只装二十到三十支箭。
高斯的常态分布曲线
生活中偶有小机率事件发生。例如,据相关统计,飞机失事的机率约为三百万分之一。这个机率听起来很小,但每天都有无数乘客搭乘飞机,全世界的航班累计数量其实颇为惊人,因此偶尔还是会听到飞机失事的消息。
再看另一个例子,二○一○年南非世界杯足球赛期间,生于英国养于德国的“章鱼帝保罗”成为耀眼的明星。保罗八次预测,全部猜对比赛结果,尤其是西班牙战胜荷兰的那场决赛,更让全世界球迷为之侧目。假如没有人为操纵,保罗猜对一次的机率是 0.5,连续八次猜对的机率是 0.0039。我们只能说,小机率事件又一次发生了。
在统计学中,样本的选取也存在小机率事件。例如,从一个装着红球和蓝球的缸中随机拿出球来,哪怕缸中的球多半是红球,取出的样本仍可能是蓝球占多数,由此导出错误的结论:缸中的球多数是蓝色的。有鉴于此,统计学家想了一个办法来提高由样本推断总体特征的能力。
假设有一个装了非常多球的缸,其中红球、蓝球的比例为P:(1–P),P(P≦1)是某个未知的比例。一次从缸中拿出五个球,这是一个样本。设p是所有样本(每个样本均含五个球)中红球比蓝球多(即至少有三个红球)的样本所占比例(p≦1)。根据机率理论,可得 P 和 p 的关系如下:
P 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
p 0.01 0.06 0.16 0.32 0.50 0.68 0.84 0.94 0.99
这就说明,当缸中红球比例为 0.1 时,在抽取的样本中红球占多数的样本比例是很小的。确切地说,在一百个样本中,可能只有一个样本是如此。
如果只是加减和方幂运算,统计学恐怕成不了一门学科,更无法成为与数学并列的一级学科(机率理论是数学下面的二级学科)。幸好,统计学里还有高斯的常态分布理论。
十九世纪下半叶,英国统计学家高尔顿(Francis Galton)和皮尔逊(Karl Pearson)在研究父母身高与子女身高之间的遗传关系时,发现了朝平均数回归的现象,也就是身高不会两极分化。
高尔顿做了著名的钉板实验,他在一块平整的木板上均匀放置了二十排钉子,下排的每根钉子恰好位于上排两根钉子的中间。然后他让一颗小圆球从最顶层中间处滚下来,小圆球碰到钉子后往左或往右滚落的概率各为 0.5。由于钉子的间距正好略大于小圆球的直径,小圆球会再次撞击钉子并往左右滚落,概率同样为 0.5。
高尔顿观察到,小圆球虽然一路碰撞滚落底部,却不会太偏离中心位置。大多数小圆球都集结在底部中心的位置,愈往两边数量愈少。最后,堆积的小圆球形成了一个钟形曲线,这正是由法裔英籍数学家棣美弗(Abraham de Moivre)于一七三三年提出,后以德国数学家高斯(他首先将其应用于天文学研究)的名字来命名的常态分布曲线:
如果考虑滚落在中间6个钉距之间的小圆球,则其概率为上述函数在区间[–3, 3]上的定积分,大约是 99.73%。莎士比亚的诗文和忌日威廉•莎士比亚(W. Shakespeare)是英国大文豪,也被视为有史以来最伟大的文学家之一。 1985年秋天,有位莎翁研究专家在牛津大如果考虑滚落在中间六个钉距之间的小圆球,则其机率为上述函数在区间[–3, 3]上的定积分,大约是99.73%。
莎士比亚的诗文和忌日
莎士比亚是英国大文豪,被视为有史以来最伟大的文学家之一。一九八五年秋天,某位莎翁研究专家在牛津大学博多利图书馆里发现了一首写在纸片上的九节诗。这张纸片已被收藏近二百年,上面的诗歌会是莎翁写的吗?
两年后,两位统计学家研究了这首诗,并与莎士比亚的写作风格进行比对,结果发现它们惊人的一致性。已知莎翁诗文著作中用词总量为 884,647 个,其中 31,534 个是不同的,它们出现的频率如下:
单词使用的频率 1 2 3 4 5 >100
不同的单词数 14376 4343 2292 1463 1043 846
由此可见,莎翁喜欢用新词,他使用一次就舍弃的词高达 45.6%,仅用两次的词占 13.8%。倘若对莎翁的部分作品做同样的统计,不同的词出现的频率会高一些。这首新发现的诗作共有四百二十九个单词,其中有二百五十八个是不同的,观测值与基于莎翁写作风格的预测值相对接近。与此同时,统计学家也调查了与莎翁同时代的著名诗人詹森(S. Johnson)、马娄(C. Marlowe)和邓恩(J. Donne)的写作风格,发现他们的预测值与这首诗的观测值有着统计学上的显著差异。
自此以后,莎士比亚的另外三部著作《罗密欧与茱丽叶》、《汤玛斯.莫尔爵士》和《爱德华三世》也用同样的方法加以验证。因为《罗密欧与茱丽叶》写的是义大利上流社会,而莎翁出身英国平民,过去三个世纪里,包括狄更斯(Charles Dickens)和马克.吐温(Mark Twain)等人都曾怀疑它不是莎士比亚的作品。
苏联作家萧洛霍夫(Mikhail Sholokhov)的传世之作《静静的顿河》(And Quiet Flows the Don)也曾遭受类似质疑。这部小说让萧洛霍夫获得一九六五年的诺贝尔文学奖。一九七四年,另一位流亡的苏联作家索忍尼辛(Aleksandr Solzhenitsyn,一九七○年诺贝尔奖得主)在巴黎公开提出质疑,主张萧洛霍夫当时才二十多岁,不可能写出如此广度和深度的鸿篇钜著,而且书中的内容和写作技巧也不平均。
这场争论一直持续到萧洛霍夫暮年,有人怀疑他抄袭了已故作家克留科夫(F. Kryukov)的作品。一九八四年,一位挪威奥斯陆大学的统计学家率领了一个小组,将萧洛霍夫无争议的作品、《静静的顿河》和克留科夫的作品分为三组,利用统计方法进行分析。
第一,他们统计不同词汇占总词汇量的比例,三组分别为 65.5%、64.6%、58.9%。第二,选择最常见的二十个俄语单词,统计它们出现的频率,三组分别为 22.8%、23.3%、26.2%。第三,统计出现不止一次的词汇所占比例,三组分别为 80.9%、81.9%、76.9%。
无论哪一类统计结果都显示,克留科夫的作品风格与《静静的顿河》之间存在着显著差异,而萧洛霍夫更像《静静的顿河》的作者。在中国,古典小说《红楼梦》的作者同样存有疑问,有红学家认为后四十回与前八十回在风格上有很大差异,因此怀疑是另一个作者所写。假如也使用统计学方法,或许可以帮助鉴别。
二十世纪印度裔美籍统计学家 C.R.劳(C. R. Rao)说过,“假如世上每件事情均不可预测地随机发生,那我们的生活将无法忍受。反之,假如每件事情都是确定的、完全可以预测的,那我们的生活又将十分无趣。”他还指出,“在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的世界里,所有的判断都是统计学。”
最后再回来说说莎士比亚。莎翁的生日与忌日都是四月二十三日,这一天也是西班牙语世界最伟大的作家、《唐吉诃德》作者塞万提斯(Cervantes)的忌日,他们在一六一六年的同一天去世。中国历史上最负盛名的戏剧家之一汤显祖也在这一年去世。这个机率实在太小了,小到我们无法估测,甚至完全可以忽略不计。
【本文节录自《数学的故事》,时报文化出版,作者蔡天新。】 收起阅读 »
为什么化学工程师应该了解方差分析
一般来说,如果您是一名化学工程师,您可能正在开发和设计化工制造工艺。与其他工程师不同,化学工程师可能需要应用化学、生物学、物理学和数学原理来解决与化学品、燃料、药物、食品和许多其他产品的生产或使用相关的问题。因为将所有时间都用在了科学方面,如果您没有如所希望的在统计上花费足够时间,请不必担心,Minitab 随时为您服务!现在,让我们谈谈为什么方差分析 (ANOVA) 可以成为化学工程师的秘密武器。
为什么您应该了解方差分析
许多工业应用都需要进行实验,其目的是了解组之间是否存在差异。在统计方面,我们考虑一个因子(比如:催化剂类型)并且想了解该因子的各水平(比如:催化剂 1、2、 3 和 4)之间在统计意义上是否有显著差异。当各组的测量是连续的并且满足某些其他假设时,我们使用方差分析来比较各组的平均值。从某种意义上说,“方差分析”这个用词并不恰当,因为我们比较的是各组的均值。然而,通过分析组水平内和组间数据的变化,我们可以确定组均值是否在统计意义上不同。
方差分析检验总体均值(以符号 µ 表示)均相等的原假设。我们将使用样本均值来估计总体均值。如果这个原假设被否定,那么得出的结论是总体均值并不完全相等。
原假设:Ho: µCatalyst 1 = µCatalyst 2 = µCatalyst 3 = µCatalyst 4
简单地说,我们假设各组的均值相等,我们收集证据来证明这一点,即如果我们观察到这些均值之间存在较大差异,则更有可能否定此观点并假设组水平内存在差异。
单因子方差分析示例
想象一下,化学工程师想要比较使用四种不同催化剂的产品产量。 她将催化剂加热与产品一起反应。使用方差分析,工程师可以确定使用不同催化剂的产品产量是否有显著差异。
首先,工程师收集数据,如下所示。
接下来,运行单因子方差分析。
产品产量方差分析的 p 值很小,表明如果原假设成立,即催化剂均值相等,我们观察到这些结果的可能性很小。由于 p 值小于 5% 显著性水平(使用 alpha = 0.05),我们否定原假设。得出的结论是不同催化剂组的平均产品产量不同。
工程师即得知某些组的均值不同。下一个逻辑问题是哪些组的均值不同?
使用 TUKEY 法进行多重比较
虽然通过方差分析,我们知道了某些组的均值不同,但工程师需要进行更深入的比较才能了解到底哪些组的均值不同。Minitab 为此提供了“比较”功能。在我们的示例中,化学工程师使用 Tukey 比较来正式检验组对之间的差异,以了解哪些组对在统计上有显著差异。
Tukey 多重比较检验是多项检验中最保守的检验,可用于确定一组均值中的哪个均值与其他均值不同。方差分析之后使用 Tukey 法(这就是为什么您可能会听到被称为事后检验的方法),可用于为因子水平均值之间的所有成对差异创建置信区间,同时将整体误差率控制在指定的水平。
在我们的示例中,包含 Tukey 整体置信区间的图形显示催化剂 2 和 4 的均值间差异的置信区间为 3.114 到 15.886。此范围不包含零,这表明这些均值之间的差异显著。工程师可使用此差值的估计值来确定差异是否实际显著。
相反,其余均值对的置信区间均包含零,这表示差异不显著。
为什么不做一组 T 检验来判别差异?
这是个好的问题,而且经常被问到!此问题的答案与犯错的风险有关,特别是错误地认为存在统计显著差异的风险,这就是我们所说的 Alpha 风险。当我们进行一项检验时,有 5% 的机会我们会说存在差异,而实际上并没有。如果是 4 种催化剂,将进行 6 次 t 检验!
仅凭偶然的机会观察到至少一个显著性结果的概率是多少?
P(至少一个显著性结果)= 1 − P(无显著性结果)
= 1 − (1 − 0.05)6
≈ 0.264
因此,考虑到需要进行 6 次检验,我们有 26% 的机会观察到至少一个显著性结果,即使所有检验实际都不显著。事后检验控制实验误差率;更简单地说,我们希望确保错误地认为任何催化剂对存在显著性差异的机会保持在 5%。这正是 Tukey 检验为我们所做的!
答案是方差分析
使用方差分析使化学工程师能够检验混料以查看结果是否统计意义显著。同样重要的是,还可以使用比较检验确定整组是否存在差异,或者可能差异只存在于组的某部分内。在我们的示例中,只有催化剂 2 和催化剂 4 在产品产量方面在统计上有显著差异。根据这些信息,化学工程师可能会开始查看其他催化剂,以确定哪种催化剂最具成本效益、保质期最长,或最容易获得(因为知道它将产生类似数量的产品)。 收起阅读 »
为什么您应该了解方差分析
许多工业应用都需要进行实验,其目的是了解组之间是否存在差异。在统计方面,我们考虑一个因子(比如:催化剂类型)并且想了解该因子的各水平(比如:催化剂 1、2、 3 和 4)之间在统计意义上是否有显著差异。当各组的测量是连续的并且满足某些其他假设时,我们使用方差分析来比较各组的平均值。从某种意义上说,“方差分析”这个用词并不恰当,因为我们比较的是各组的均值。然而,通过分析组水平内和组间数据的变化,我们可以确定组均值是否在统计意义上不同。
方差分析检验总体均值(以符号 µ 表示)均相等的原假设。我们将使用样本均值来估计总体均值。如果这个原假设被否定,那么得出的结论是总体均值并不完全相等。
原假设:Ho: µCatalyst 1 = µCatalyst 2 = µCatalyst 3 = µCatalyst 4
简单地说,我们假设各组的均值相等,我们收集证据来证明这一点,即如果我们观察到这些均值之间存在较大差异,则更有可能否定此观点并假设组水平内存在差异。
单因子方差分析示例
想象一下,化学工程师想要比较使用四种不同催化剂的产品产量。 她将催化剂加热与产品一起反应。使用方差分析,工程师可以确定使用不同催化剂的产品产量是否有显著差异。
首先,工程师收集数据,如下所示。
接下来,运行单因子方差分析。
产品产量方差分析的 p 值很小,表明如果原假设成立,即催化剂均值相等,我们观察到这些结果的可能性很小。由于 p 值小于 5% 显著性水平(使用 alpha = 0.05),我们否定原假设。得出的结论是不同催化剂组的平均产品产量不同。
工程师即得知某些组的均值不同。下一个逻辑问题是哪些组的均值不同?
使用 TUKEY 法进行多重比较
虽然通过方差分析,我们知道了某些组的均值不同,但工程师需要进行更深入的比较才能了解到底哪些组的均值不同。Minitab 为此提供了“比较”功能。在我们的示例中,化学工程师使用 Tukey 比较来正式检验组对之间的差异,以了解哪些组对在统计上有显著差异。
Tukey 多重比较检验是多项检验中最保守的检验,可用于确定一组均值中的哪个均值与其他均值不同。方差分析之后使用 Tukey 法(这就是为什么您可能会听到被称为事后检验的方法),可用于为因子水平均值之间的所有成对差异创建置信区间,同时将整体误差率控制在指定的水平。
在我们的示例中,包含 Tukey 整体置信区间的图形显示催化剂 2 和 4 的均值间差异的置信区间为 3.114 到 15.886。此范围不包含零,这表明这些均值之间的差异显著。工程师可使用此差值的估计值来确定差异是否实际显著。
相反,其余均值对的置信区间均包含零,这表示差异不显著。
为什么不做一组 T 检验来判别差异?
这是个好的问题,而且经常被问到!此问题的答案与犯错的风险有关,特别是错误地认为存在统计显著差异的风险,这就是我们所说的 Alpha 风险。当我们进行一项检验时,有 5% 的机会我们会说存在差异,而实际上并没有。如果是 4 种催化剂,将进行 6 次 t 检验!
仅凭偶然的机会观察到至少一个显著性结果的概率是多少?
P(至少一个显著性结果)= 1 − P(无显著性结果)
= 1 − (1 − 0.05)6
≈ 0.264
因此,考虑到需要进行 6 次检验,我们有 26% 的机会观察到至少一个显著性结果,即使所有检验实际都不显著。事后检验控制实验误差率;更简单地说,我们希望确保错误地认为任何催化剂对存在显著性差异的机会保持在 5%。这正是 Tukey 检验为我们所做的!
答案是方差分析
使用方差分析使化学工程师能够检验混料以查看结果是否统计意义显著。同样重要的是,还可以使用比较检验确定整组是否存在差异,或者可能差异只存在于组的某部分内。在我们的示例中,只有催化剂 2 和催化剂 4 在产品产量方面在统计上有显著差异。根据这些信息,化学工程师可能会开始查看其他催化剂,以确定哪种催化剂最具成本效益、保质期最长,或最容易获得(因为知道它将产生类似数量的产品)。 收起阅读 »
优思学院:六西格玛是哪六个?六个西格玛是什么意思?
原刊于 优思学院 知乎帐号
曾经有一些初学六西格玛的学生,在上我们课程之前,完全搞不清楚什么是六个西格玛。
首先,所谓的西格玛,是Sigma的音译,中文其实是标准差。
标准差(Standard Deviation,缩写SD),数学符号是σ(sigma),在统计学中用作为测量一组数值的离散程度。
六西格玛是哪六个?
六个西格玛的意思,就是说一组数值,其分布从下限值(Lower Limit)至平均值(Mean)之间存在六个标准差,而从平均值至上限值(Upper Limit)至平均值(Mean)之间也存在六个标准差,简而言之,就上限至下限共存在十二个标准差,就如下图所见的一样。优思学院・六个西格玛水平又在图中所见,上下三个标准差,已经包含了99.7%的数据。如果是上下六个标准差的话,其实已经包含了99.9999998%的数据,如果超出上限代表是缺陷(Defect)的话,也就说只有0.0000002%属于缺陷的,这就是六个西格玛在统计学上的意义。
这里,大家或者会感到很奇怪,如果六个西格玛在统计学上的意义是0.0000002%的缺陷,即是一百万次中,只有0.002个缺陷(DPMO=0.002)。
六个西格玛的DPMO究竟是3.4 还是0.002?
六西格玛这个统计学术语实际上是指一个过程中,每一百万次的过程运行会有0.002个缺陷。然而,现代六西格玛从业者所接受的六西格玛的定义却是每百万次3.4个缺陷。虽然即使达到每百万次3.4个缺陷的效率,也使得流程实现了近乎零的缺陷,因此可以忽略不计,但六西格玛这个统计学上的名字是有误导性的。每百万次3.4个缺陷,实际上相当于4.5西格玛水平。这1.5个西格玛差異或者偏移,其实另有历史上的解释。
长期与短期的差异
1.5西格玛偏移(1.5 Sigma Shift)背后的逻辑植根于六西格玛的实证研究。实证研究表明,流程在短期内的表现往往比长期内的实际表现要好。这是因为在短期内,需要处理的只是正常的过程变化。然而在长期内,也会出现特殊的过程变异的情况。这就导致了过程在短期内表现为六西格玛水平,但在长期内表现为4.5西格玛水平。
优思学院・长期和短期的六西格玛水平
长期动态平均变化
过程变异的长期变化是由以下两个原因之一造成的。
1. 过程平均值随时间的变化
2. 随着时间的推移,该过程的标准差的增大
由于上述任何一个原因,或两者的结合,导致流程无法达到真正的六西格玛目标。这种现象称为长期动态均值变化。
摩托罗拉公司的实证研究
现在,我们知道,由于长期的动态均值变化,不符合六西格玛标准。但是,我们怎么知道我们需要从正态曲线的两边去掉1.5个西格玛。好吧,这并不是统计学上的现实,而只是一个行业惯例。
摩托罗拉是全球六西格玛方法论的先驱。他们对所改进的流程进行了很多项目的实证研究,同样得出1.5西格玛的偏移的结论。虽然许多统计学家称这1.5西格玛的偏移的结论是颇为任意的,但业界想走摩托罗拉的路,每百万人中有3.4个缺陷,也已经成为业界公认的六西格玛的定义了。
文:优思学院・六西格玛专栏 收起阅读 »
曾经有一些初学六西格玛的学生,在上我们课程之前,完全搞不清楚什么是六个西格玛。
首先,所谓的西格玛,是Sigma的音译,中文其实是标准差。
标准差(Standard Deviation,缩写SD),数学符号是σ(sigma),在统计学中用作为测量一组数值的离散程度。
六西格玛是哪六个?
六个西格玛的意思,就是说一组数值,其分布从下限值(Lower Limit)至平均值(Mean)之间存在六个标准差,而从平均值至上限值(Upper Limit)至平均值(Mean)之间也存在六个标准差,简而言之,就上限至下限共存在十二个标准差,就如下图所见的一样。优思学院・六个西格玛水平又在图中所见,上下三个标准差,已经包含了99.7%的数据。如果是上下六个标准差的话,其实已经包含了99.9999998%的数据,如果超出上限代表是缺陷(Defect)的话,也就说只有0.0000002%属于缺陷的,这就是六个西格玛在统计学上的意义。
这里,大家或者会感到很奇怪,如果六个西格玛在统计学上的意义是0.0000002%的缺陷,即是一百万次中,只有0.002个缺陷(DPMO=0.002)。
六个西格玛的DPMO究竟是3.4 还是0.002?
六西格玛这个统计学术语实际上是指一个过程中,每一百万次的过程运行会有0.002个缺陷。然而,现代六西格玛从业者所接受的六西格玛的定义却是每百万次3.4个缺陷。虽然即使达到每百万次3.4个缺陷的效率,也使得流程实现了近乎零的缺陷,因此可以忽略不计,但六西格玛这个统计学上的名字是有误导性的。每百万次3.4个缺陷,实际上相当于4.5西格玛水平。这1.5个西格玛差異或者偏移,其实另有历史上的解释。
长期与短期的差异
1.5西格玛偏移(1.5 Sigma Shift)背后的逻辑植根于六西格玛的实证研究。实证研究表明,流程在短期内的表现往往比长期内的实际表现要好。这是因为在短期内,需要处理的只是正常的过程变化。然而在长期内,也会出现特殊的过程变异的情况。这就导致了过程在短期内表现为六西格玛水平,但在长期内表现为4.5西格玛水平。
优思学院・长期和短期的六西格玛水平
长期动态平均变化
过程变异的长期变化是由以下两个原因之一造成的。
1. 过程平均值随时间的变化
2. 随着时间的推移,该过程的标准差的增大
由于上述任何一个原因,或两者的结合,导致流程无法达到真正的六西格玛目标。这种现象称为长期动态均值变化。
摩托罗拉公司的实证研究
现在,我们知道,由于长期的动态均值变化,不符合六西格玛标准。但是,我们怎么知道我们需要从正态曲线的两边去掉1.5个西格玛。好吧,这并不是统计学上的现实,而只是一个行业惯例。
摩托罗拉是全球六西格玛方法论的先驱。他们对所改进的流程进行了很多项目的实证研究,同样得出1.5西格玛的偏移的结论。虽然许多统计学家称这1.5西格玛的偏移的结论是颇为任意的,但业界想走摩托罗拉的路,每百万人中有3.4个缺陷,也已经成为业界公认的六西格玛的定义了。
文:优思学院・六西格玛专栏 收起阅读 »
优思学院:Weibull 分布 和 Lognormal 分布 (一)
原刊于优思学院知乎帐号
无论是质量工程师、六西格玛绿带、六西格玛黑带,他们一般都对正态分布相当熟悉和了解。始终,正态分布是最常见的概率分布,不过当他们遇到非正态的分布时往往无所适从,如果他们忘记了验证这些分布,甚至会错误地预设了那些非正态的分布为正态。
今天,优思学院希望介绍两个概率分布,这两个概率分布虽然知道的人不多,但其实应用非常广泛,它们就是----Weibull 分布 和 Lognormal 分布。这两种非正态分布在服务业中颇为常见。
还记得这张图吗?这是总体与样本,我们在总体取出N个样本,然后便可以从中计算出均值和标准差之类的估算值,以描述样本中的观察结果。在统计数据中,直方图通常表示样本,而曲线通常代表整个总体。
首先,我们先重温一下何谓正态分布。正态分布的机率的函数曲线是对称的,看起来有点像钟形,因此人们又经常称之为钟形曲线(类似于寺庙里的大钟,因此而得名)。
让我们用一个例子来说明。我测试了咖啡因在咖啡豆(样本数量N为 50)中的含量百分比,并找到一个像这样的直方图。我还发现平均值为0.078。且标准差为0.020。
优思学院・六西格玛
您可以看到数据看起来有点像钟形,和它围绕均值对称。直方图中的蓝色条显示测量样品中50个值的分布。红色曲线是预测的总体,当样本数量只有50,您需要一些想像力去识别正态分布。
当然,如果样本数量N增大的话,直方图会开始看起来更像钟形。就像以下这些图表所见的情况,我们可以确定它可以作为正态分布来使用。
优思学院・六西格玛
现在,让我们看另一个例子。
我们收集了各个银行处理索赔的处理时间(Throughput time)的次数。这是一个直方图,指的是我们的每次的处理时间,较集中于0-30之间。然后,我们可以拟合正态分布曲线(红线),就好像下图一样,你觉得合适吗?
优思学院・六西格玛
很明显,答案是否定的。
因为,直方图和正态分布曲线明显呈不同的形状,直方图中也不能看到它围绕均值对称,假如,我们用红线作为依据,而不理会直方图的话,便会误以为只有一半的索赔处理时间在30分钟以下,然而,事实上从直方图所见却非如此。因此,我们可以说这个数据并不符合正态分布。
幸运的是,在这种情况下,我们还有以下两种分布是有可能合适的分布。
第一种,是Weibull分佈,它是一种偏态分布。就是分布是偏向一側,是它的尾巴位于另一侧。Weibull分佈通常用于数据,例如吞吐量时间和处理时间等,因为这些通常是偏斜的变量,它看起来像这样:优思学院・六西格玛・Weibull分佈
第二种,是Lognormal分布,同样常用于偏斜数据,中文译作对数正态分布。它看起来像这样:优思学院・六西格玛・Lognormal分布
从图形形状看来,两种分布都应该比正态分布更适合用于我们关于银行索赔的处理时间这个例子上。
今天先谈到这里,我们会在下一篇进一步说明应该如何利用Minitab选择适合的概率分布。 收起阅读 »
无论是质量工程师、六西格玛绿带、六西格玛黑带,他们一般都对正态分布相当熟悉和了解。始终,正态分布是最常见的概率分布,不过当他们遇到非正态的分布时往往无所适从,如果他们忘记了验证这些分布,甚至会错误地预设了那些非正态的分布为正态。
今天,优思学院希望介绍两个概率分布,这两个概率分布虽然知道的人不多,但其实应用非常广泛,它们就是----Weibull 分布 和 Lognormal 分布。这两种非正态分布在服务业中颇为常见。
还记得这张图吗?这是总体与样本,我们在总体取出N个样本,然后便可以从中计算出均值和标准差之类的估算值,以描述样本中的观察结果。在统计数据中,直方图通常表示样本,而曲线通常代表整个总体。
首先,我们先重温一下何谓正态分布。正态分布的机率的函数曲线是对称的,看起来有点像钟形,因此人们又经常称之为钟形曲线(类似于寺庙里的大钟,因此而得名)。
让我们用一个例子来说明。我测试了咖啡因在咖啡豆(样本数量N为 50)中的含量百分比,并找到一个像这样的直方图。我还发现平均值为0.078。且标准差为0.020。
优思学院・六西格玛
您可以看到数据看起来有点像钟形,和它围绕均值对称。直方图中的蓝色条显示测量样品中50个值的分布。红色曲线是预测的总体,当样本数量只有50,您需要一些想像力去识别正态分布。
当然,如果样本数量N增大的话,直方图会开始看起来更像钟形。就像以下这些图表所见的情况,我们可以确定它可以作为正态分布来使用。
优思学院・六西格玛
现在,让我们看另一个例子。
我们收集了各个银行处理索赔的处理时间(Throughput time)的次数。这是一个直方图,指的是我们的每次的处理时间,较集中于0-30之间。然后,我们可以拟合正态分布曲线(红线),就好像下图一样,你觉得合适吗?
优思学院・六西格玛
很明显,答案是否定的。
因为,直方图和正态分布曲线明显呈不同的形状,直方图中也不能看到它围绕均值对称,假如,我们用红线作为依据,而不理会直方图的话,便会误以为只有一半的索赔处理时间在30分钟以下,然而,事实上从直方图所见却非如此。因此,我们可以说这个数据并不符合正态分布。
幸运的是,在这种情况下,我们还有以下两种分布是有可能合适的分布。
第一种,是Weibull分佈,它是一种偏态分布。就是分布是偏向一側,是它的尾巴位于另一侧。Weibull分佈通常用于数据,例如吞吐量时间和处理时间等,因为这些通常是偏斜的变量,它看起来像这样:优思学院・六西格玛・Weibull分佈
第二种,是Lognormal分布,同样常用于偏斜数据,中文译作对数正态分布。它看起来像这样:优思学院・六西格玛・Lognormal分布
从图形形状看来,两种分布都应该比正态分布更适合用于我们关于银行索赔的处理时间这个例子上。
今天先谈到这里,我们会在下一篇进一步说明应该如何利用Minitab选择适合的概率分布。 收起阅读 »
质量人分析-体检显阳性--为什么大多是虚惊一场
大家有没有这种感觉,体检时显示某疾病为阳性,经过进一步检查,结果是虚惊一场,并没有生病。如果该病的发病率越低,这种现象就越明显,如唐氏综合症(年轻产妇罹患此病的概率比较低),需要反复排查,才能确诊。
问:
如果一种疾病的发病率是千分之一,检测仪器的准确率是95%,如果检测结果为阳性,请问有多大的概率真正罹患此病?
猜一猜,大致的概率?
A 2% B 10% C 50% D 95%
分析过程如下:
患病,显示患病0.00095
0.001X0.95=0.00095
真正的患者 0.001
患病,显示健康0.00005
0.001X0.05=0.00005
健康,显示患病0.04995
0.999X0.05=0.04995
真正的健康者0.999
健康,显示健康0.94905
0.999X0.95=0.94905
即使检测结果为阳性,在该种情况下,真正患病的概率只是0.00095/(0.00095+0.04995)=1.87%
用简单的语言表述,从大夫的角度看问题,大夫知道每1000人中只有一个患者的概率,而测量准确度是95%,就是说检测了1000个患者,会大约有50个人显阳性,而真正的患者只有一个。所以对于发病率较低,并且检测准确度不是非常高的检测手段,大夫会多次检验,已求得准确的诊断。
有些人会认为,大夫对一个病症反复用不同的方法进行检测是为了多收钱,答案是未必。
对于大多数质量人,是比较容易理解这个概念。因为对于任何产品的检查,都存在两种风险,一个风险是把不合格品判断为合格品,另一个风险是把合格品判断为不合格品。
对于一个生产医疗试剂和医疗检查仪器的厂家,他们也面临着这个选择,除非检测结果准确率为100%。他们在设定检验参数时,是倾向发现全部的患者,还是倾向避免把健康的人判断成患者,那个风险危害更大?
越是严重的疾病,如果没有检测出来,这个风险比把健康人判定为潜在的患者风险要大。这与质量人对于安全项目,关键项目要加严检验道理是一样的。
如果检测结果为阳性,希望这时大夫能告诉潜在的患者,该病发病率很低,检测的准确度不是很高,在大概率上没有患上此病,还需要进一步排查。不要让潜在的患者太担心,多一些人文关怀。
吓死宝宝了!
再问:
发病率依旧是千分之一,如果用3种不同的检测方法,检测准确率都是95%,且都显阳性,请问患病的概率有多大?
收起阅读 »
问:
如果一种疾病的发病率是千分之一,检测仪器的准确率是95%,如果检测结果为阳性,请问有多大的概率真正罹患此病?
猜一猜,大致的概率?
A 2% B 10% C 50% D 95%
分析过程如下:
患病,显示患病0.00095
0.001X0.95=0.00095
真正的患者 0.001
患病,显示健康0.00005
0.001X0.05=0.00005
健康,显示患病0.04995
0.999X0.05=0.04995
真正的健康者0.999
健康,显示健康0.94905
0.999X0.95=0.94905
即使检测结果为阳性,在该种情况下,真正患病的概率只是0.00095/(0.00095+0.04995)=1.87%
用简单的语言表述,从大夫的角度看问题,大夫知道每1000人中只有一个患者的概率,而测量准确度是95%,就是说检测了1000个患者,会大约有50个人显阳性,而真正的患者只有一个。所以对于发病率较低,并且检测准确度不是非常高的检测手段,大夫会多次检验,已求得准确的诊断。
有些人会认为,大夫对一个病症反复用不同的方法进行检测是为了多收钱,答案是未必。
对于大多数质量人,是比较容易理解这个概念。因为对于任何产品的检查,都存在两种风险,一个风险是把不合格品判断为合格品,另一个风险是把合格品判断为不合格品。
对于一个生产医疗试剂和医疗检查仪器的厂家,他们也面临着这个选择,除非检测结果准确率为100%。他们在设定检验参数时,是倾向发现全部的患者,还是倾向避免把健康的人判断成患者,那个风险危害更大?
越是严重的疾病,如果没有检测出来,这个风险比把健康人判定为潜在的患者风险要大。这与质量人对于安全项目,关键项目要加严检验道理是一样的。
如果检测结果为阳性,希望这时大夫能告诉潜在的患者,该病发病率很低,检测的准确度不是很高,在大概率上没有患上此病,还需要进一步排查。不要让潜在的患者太担心,多一些人文关怀。
吓死宝宝了!
再问:
发病率依旧是千分之一,如果用3种不同的检测方法,检测准确率都是95%,且都显阳性,请问患病的概率有多大?
收起阅读 »
原创 | 不谈SPC的Cp、Cpk都是耍流氓!
兑现承诺。
这个拿以前的资料整理的,完成速度比较快。
准确的说:计算Cpk还有第四个条件:过程稳态;这里在原文稍微点了下,没有强调。
下一篇《当Cp、Cpk遭遇单边公差?》,由于琐事缠身,更新时间不定。
Sol_Sun
2019/10/28 收起阅读 »
这个拿以前的资料整理的,完成速度比较快。
准确的说:计算Cpk还有第四个条件:过程稳态;这里在原文稍微点了下,没有强调。
下一篇《当Cp、Cpk遭遇单边公差?》,由于琐事缠身,更新时间不定。
Sol_Sun
2019/10/28 收起阅读 »
原创 | 从变差谈Cp、Cpk和Pp、Ppk
致敬 杨格_Alan 老师,下一篇《不谈SPC的Cpk都是耍流氓》。
申明下:由于Cpk,Ppk在美系和德系标准中含义不完全一样。本文及以下全都是沿用美系标准通用的概念。
Sol_Sun
2019/10-23 收起阅读 »
交配的季节与考试的时候
春天来了,万物复苏,大草原又到了动物们交配的季节。
国庆来了,六西格玛考试,6SQ论坛又到了交流讨论最活跃的时候。
各种没带子,绿带子,黑带子纷纷抓紧了手中的教材;握住笔杆子,做着各种的考试的模拟题目。有思考、有迷惘、也有会心一笑……碰到问题纷纷投身论坛寻找大神的帮助。
纵观六西格玛考试相关提问,大都聚焦“六西格玛统计”;不能不说是淡淡的愉悦与悲哀。愉悦的是六西格玛越来越被人所知悉;悲哀的是六西格玛不仅仅是“六西格玛统计”。
祝愿,所有参加考试的朋友都考试顺利;能够将“六西格玛统计”应用于六西格玛项目实践,早日掌握真正的六西格玛。
收起阅读 »
国庆来了,六西格玛考试,6SQ论坛又到了交流讨论最活跃的时候。
各种没带子,绿带子,黑带子纷纷抓紧了手中的教材;握住笔杆子,做着各种的考试的模拟题目。有思考、有迷惘、也有会心一笑……碰到问题纷纷投身论坛寻找大神的帮助。
纵观六西格玛考试相关提问,大都聚焦“六西格玛统计”;不能不说是淡淡的愉悦与悲哀。愉悦的是六西格玛越来越被人所知悉;悲哀的是六西格玛不仅仅是“六西格玛统计”。
祝愿,所有参加考试的朋友都考试顺利;能够将“六西格玛统计”应用于六西格玛项目实践,早日掌握真正的六西格玛。
收起阅读 »
威布尔两参数小计算器
两参数威布尔分析小计算器小软件:适用小企业,图简便的人。如果提示缺OCX控件,请自行按电脑上网下载到System32目录下并安装;
适用范围:寿命、强度等破坏性测试的失效数据分析,最小数据为5件,超过20件最好用考虑更强大的专业软件进行三参数威布尔分析,如果有人感兴趣,多点赞,以有动力开发威布尔三参数分析的软件;
用法:
1、录入数据,可以空格、逗号、分号、回车等多种形式分隔数据,随用户习惯;
也可复制粘贴到文本框中,离开文本框,会自动清理非数据信息;
2、察看数据是否正确无误,必要时更正错漏;
3、点击排序,输入目标寿命或强度值,可靠度值,后点击计算;(如何试验中部分数据未失效,样本数要填总试验数,文本框只只填失效数据)
4、两参数威布尔分析数据即可计算,经核对,与Minitab等高大上的软件精度有一定误差,只能说简单方便易用;
5、点击保存则在软件目录下生成WeibullYYMMHHMM.TXT文本文件,内有更高精度的过程数据;
软件纯属自行编制,由于初学习,难免有错误之处,请大家多指点不足。
并附上一篇论文,供校核软件之用。
收起阅读 »
适用范围:寿命、强度等破坏性测试的失效数据分析,最小数据为5件,超过20件最好用考虑更强大的专业软件进行三参数威布尔分析,如果有人感兴趣,多点赞,以有动力开发威布尔三参数分析的软件;
用法:
1、录入数据,可以空格、逗号、分号、回车等多种形式分隔数据,随用户习惯;
也可复制粘贴到文本框中,离开文本框,会自动清理非数据信息;
2、察看数据是否正确无误,必要时更正错漏;
3、点击排序,输入目标寿命或强度值,可靠度值,后点击计算;(如何试验中部分数据未失效,样本数要填总试验数,文本框只只填失效数据)
4、两参数威布尔分析数据即可计算,经核对,与Minitab等高大上的软件精度有一定误差,只能说简单方便易用;
5、点击保存则在软件目录下生成WeibullYYMMHHMM.TXT文本文件,内有更高精度的过程数据;
软件纯属自行编制,由于初学习,难免有错误之处,请大家多指点不足。
并附上一篇论文,供校核软件之用。
收起阅读 »
自变量相关(共线性)问题 向DOE初学者进言(4)
当方便用软件处理DOE数据建数模后,
“我们往往可以非常自信地谈论总体估计的精确度。但是,我们对回归结果的信任程度取决于是否能够成功地处理以下常见问题:多元共线性、奇异值、非正态、异方差性以及非线性。”
单单就共线性问题,对寻找最优水平组合,也会带来判断困难。
《实用优选法》第3章望小型案例:A升温速度、B恒温温度、C恒温时间、D降温方式。
用极差法分析,对响应贡献大小排列:A>C>B>D。用部分正交试验:L9,3水平4因子。
9个结果中,C时间高水平6h组合,响应为1。
第2次正交试验之前,书中用“中心炮”和“两极炮”分析,都指向C时间8h和10h可能是最佳水平。但实际上第2次试验证明C时间3h或5h都能得到响应0。
原分析方向有误,笔者认为除部分正交试验信息不完备外,最重要的是A升温速度和C时间负相关,B恒温温度和C时间也负相关。
简易之:自变量之间相关不独立,有多种组合可达到最优(此案例响应为0)。
最后从经济角度,选C恒温时间3h的组合。
有的学者认为破解自变量相关的方法是去除一个自变量。
“一个常见的但往往容易被误用的解决共线性的方法是变量选择…用来将模型中回归因子减少至较低相关性的组合。”即逐步回归的方法, 但此案例,A和B都不能少。
统计假设最多的正态独立同分布,实际独立同分布是最基础性的约束。
也就是如不独立,不能用普通最小二乘法建数学模型,“对共线性的处理没有速效方法”。
比如SpC休哈特控制图,其中隐含前后工序独立,如不独立需用张公绪提出的SpD统计过程控制(选控图)。
多因子案例交互作用难避免,同样自变量之间相关也难避免。
所以高斯-马尔科夫七项假设中要求自变量之间没有完全的线性关系。
回归分析“尽管它是一件最常用的工具,但它同样有可能最容易被滥用的工具”
(《理解回归假设》序)
收起阅读 »
CPk小计算器
Cpk计算器使用说明
2019-04-09
用法一、
1、输入平均值,标准差,样本个数,点击随机数,即在数据框中生成正态分布数据;
2、点击进入数据框,点击其它上下限输入框,即可自动计算还原数据的平均值和标准差;
3、输入上下限,点击计算即可计算出Cpk,本批不良率和长期的不良率;
4、点出保存,弹出窗口,保存所有数据及计算结果,默认文件件CPK+日期+日分;
用法二、
1、点击进入数据框,输入或粘贴数据,离开时自动修改格式;
2、修改格式时,空格、分号,回车、逗号均作为数据分隔处理;
3、点击上下限文本框时,平均数、标准差、样本个数在离开数据框时自动计算;
4、输入上下限,再点击计算出Cpk,本批不良率和长期的不良率,
5、点出保存,弹出窗口,保存所有数据及计算结果,默认文件件CPK+日期+日分;
注意:
1、长期平均不良率按1sigma偏差计算,6sigma材料中一般按1.5Sigma,均值按该偏移是平均水平的估计,与事实有差异;
2、有数据千位分隔符为逗号,考虑到国内用,该符号从习惯上还是作数据分隔符处理,有需要的单独联系;
3、当系统提示缺少库文件时,请按要求下载相关的库文件,放入软件所在目录或windows\system32目录下,必要时,注册该库文件;
捐助软件开发,希望达成未来目标:
1、失效测试的寿命威布尔分布分析计算;适用于寿命型、强度型数据分析
2、t检验假设检验;
3、p检验假设检验;
4、功率与样本量计算;
5、公差设计;
6、抽样方案设计;
7、单值极差异常点判断;(不计划提供图表,暂估工作量过大)
有更好的建议请联系:
冯辉才
hui7279@126.com
开发背景:
Cpk计算器,适用于计量型正态分布数据的分析,具体的专业术语,由品质人员去解释。
目前可用的各种数据分析的软件偏大,一般小企业不想购买这功能齐全,但价格昂贵的软件。到目前为止,还未能在Linux中能正常运行Minitab数据分析软件,想有简单替代方案;
开发想法以小为好,不占用显示全界面。最早开发想用Python,这个软件用数据分析、作图,开发软件太易了,唯一的缺点是制作运作软件体积太大,作简单试用后,暂时放弃,暂时转用VB6,但目前发现的问题是不同电脑软件兼容性存在问题。
初步测试,本软件在Linux系统中,Wine模拟Windows环境可执行分析,这是我想要的结果:涉及版权问题,IT想转Linux系统办公,缺些专业软件;
带上相应的库文件后,直接测试在WinPE下仍可运行,只时显时会不太美观;
目前的定位是免费,接受资助开发,未来计划开发安卓版,便于现场数据分析,希望给企业试用期为1年,最终希望企业按规模付成熟数据分析软件的:1%费用。以便中小企业有简单的数据分析应用工具,不受制于Minitab、JMP、微软Office等的高价版权费。为中国的质量战略添砖加瓦!
收起阅读 »
2019-04-09
用法一、
1、输入平均值,标准差,样本个数,点击随机数,即在数据框中生成正态分布数据;
2、点击进入数据框,点击其它上下限输入框,即可自动计算还原数据的平均值和标准差;
3、输入上下限,点击计算即可计算出Cpk,本批不良率和长期的不良率;
4、点出保存,弹出窗口,保存所有数据及计算结果,默认文件件CPK+日期+日分;
用法二、
1、点击进入数据框,输入或粘贴数据,离开时自动修改格式;
2、修改格式时,空格、分号,回车、逗号均作为数据分隔处理;
3、点击上下限文本框时,平均数、标准差、样本个数在离开数据框时自动计算;
4、输入上下限,再点击计算出Cpk,本批不良率和长期的不良率,
5、点出保存,弹出窗口,保存所有数据及计算结果,默认文件件CPK+日期+日分;
注意:
1、长期平均不良率按1sigma偏差计算,6sigma材料中一般按1.5Sigma,均值按该偏移是平均水平的估计,与事实有差异;
2、有数据千位分隔符为逗号,考虑到国内用,该符号从习惯上还是作数据分隔符处理,有需要的单独联系;
3、当系统提示缺少库文件时,请按要求下载相关的库文件,放入软件所在目录或windows\system32目录下,必要时,注册该库文件;
捐助软件开发,希望达成未来目标:
1、失效测试的寿命威布尔分布分析计算;适用于寿命型、强度型数据分析
2、t检验假设检验;
3、p检验假设检验;
4、功率与样本量计算;
5、公差设计;
6、抽样方案设计;
7、单值极差异常点判断;(不计划提供图表,暂估工作量过大)
有更好的建议请联系:
冯辉才
hui7279@126.com
开发背景:
Cpk计算器,适用于计量型正态分布数据的分析,具体的专业术语,由品质人员去解释。
目前可用的各种数据分析的软件偏大,一般小企业不想购买这功能齐全,但价格昂贵的软件。到目前为止,还未能在Linux中能正常运行Minitab数据分析软件,想有简单替代方案;
开发想法以小为好,不占用显示全界面。最早开发想用Python,这个软件用数据分析、作图,开发软件太易了,唯一的缺点是制作运作软件体积太大,作简单试用后,暂时放弃,暂时转用VB6,但目前发现的问题是不同电脑软件兼容性存在问题。
初步测试,本软件在Linux系统中,Wine模拟Windows环境可执行分析,这是我想要的结果:涉及版权问题,IT想转Linux系统办公,缺些专业软件;
带上相应的库文件后,直接测试在WinPE下仍可运行,只时显时会不太美观;
目前的定位是免费,接受资助开发,未来计划开发安卓版,便于现场数据分析,希望给企业试用期为1年,最终希望企业按规模付成熟数据分析软件的:1%费用。以便中小企业有简单的数据分析应用工具,不受制于Minitab、JMP、微软Office等的高价版权费。为中国的质量战略添砖加瓦!
收起阅读 »
属非参数统计的部分正交试验 向DOE初学者进言(3)
属参数统计范畴的全因子析因设计,费歇在上世纪廿年代在农业DOE上已应用,但在工业上应用滞缓。原因是大于4因子工业案例众多,用全因子析因设计试验次数太多。而能大大减少试验次数的部分正交试验,其所谓主效应混杂交互效应,建数模困难。所以面对工业多因子案例两难局面,欧美学者裹足不前。
到40年代后期,纺织业专家田口玄一忽略部分正交试验的混杂问题,摆脱了非零交互作用必须甪全因子析因设计的束缚, 把部分正交试验用于工业多因子案例,在日本获得巨大成效。但欧美学者称田口方法是 “看不懂的天书”。
后来田口先生亲自在美国大企业,解决不少技术难题后,美国权威DOE文献都把田口稳健性设计列入章节:成功的实践更雄辩。
历史上,国内学者以参数统计理论观点,认为重复试验6次也是小样本,2水平4因子用8次试验样本太小,对其推断的可信度也曾持怀疑态度。北大学者在北京印染厂,现场参与的2水平7因子部分正交试验案例,仅用8次试验,成品率从32%提高到42%,反应时间缩短了近5小时。
实践促使反思理论,北大张里千认为部分正交试验属未知总体的非参数统计系统。
为了达到回归系数估计最小方差无偏估计,需适合高斯-马尔可夫7项假设;为了回归系数置信区间估计,还需正态分布假设…这都源于追求建回归方程的高目标。
依靠正交表的优良性,如仅以寻找最优水平组合,就可摆脱参数统计的约束。
张里千先生为田口方法找到了理论归属,也为各种非全因子析因设计各种DOE派别正了名。
并且说明正交表的均衝分散性、整齐可比性是小正交表用小样本产生高效能的关键:
如不删除惰性因子,网大易捕捉到冒尖区域;
因子水平间分散距离足够,系统性变异的信号能淹没随机性变异噪声;
每一水平参与试验次数相同,使每一组试验都有相同的统计解释力。
工业上百个参数案例不鲜见,用超饱和设计筛选、用各种非全因子析因设计是必要的,但非全因子析因设计信息不齐的软肋和追求建数学模型的高目标相悖的。
张里千先生为首的北大学者们提出中国特色的《实用优选法》:
用不设交互作用项的小正交表,依照序贯设计思想,用多轮正交试验逐步寻到可能最优组合。
也可同样用于控制,以达到设计要求的均值和方差为目的。
目前DOE学界两条发展方向:
(一)寻找最优水平组合,暂不建数模。作为应用数学,只要知道“是什么”,不必知道“为什么”。
(二)建回归方程为目的。
(1)一种思路是研究最小低阶混杂设计,需用经验因素判断,关键仍不能避免混杂。
(2)另一种思路,删减惰性因子,缩减到3、4因子后再用全因子析因设计建数模。
其缺陷是当试验设计水平不够多、不够广时,在原水平时可能是惰性因子,在原水平外可能是非惰性因子,尤其是非线性响应可控因子。
明明是高维空间模型,武断缩减成低维空间模型,缩减了信息后建立的回归方程,对样本拟合也近似了,离拟合总体更远了。
(3)全因子析因设计信息也不齐。
比如2水平2因子全因子析因设计有4次试验,其仅X1xX2考虑交互作用,但忽略了回归因子可能二次方。如全二阶模型需6个参数待估计,应6次试验。
用小样本估计总体的回归系数可信度有多高?
所以英国统计学家肯德尔指出“样本量n应是解释变量个数p的10倍。”(《应用回归分析》p10)
建回归方程的目的是用于预测或控制,对小样本拟合好的回归方程,不一定对总体拟合好!
所以有学者警示:
“一个模型如果对数据拟合得太好可能对预测是槽糕的。”(《试验设计与分析及参数优化》p13)
收起阅读 »
如何在试验开始前比较所采用的的实验设计的效率
DOE实验设计是重要的改善工具,也是统计学应用于解决实际问题的一门学科。虽然历经近百年的发展,至今仍是最为活跃的统计学分支。它的活力主要来自于解决实际问题的有效性。
作为工程技术人员,不仅仅是质量工作者,尤其是研发和工艺工程师,经常要进行“试验”,比如:确定公差、选择产品结构、确定工艺参数、调整加工和制造参数等等。有时候,这样的事情多到我们不认为它们是“试验”,而是日常工作的一部分。
有经验的工程师会有体会:试验是耗力费时的,更麻烦的是,尽管不断调整和优化过程,有的问题还是反复发生。
记得有句话:“不会科学安排试验的工程师,最多只能算半个工程师”。
尤其在精益理念盛行的今天,看得见的浪费容易被消除或减少;但,如果不能科学的安排试验,尽管反复试验,其中的浪费确不太容易引起重视。使用科学的方法来安排试验,应该是精益思想的体现吧。
还有许多年轻有为的质量工作者在不断学习诸如六西格玛,同时也不断解决所谓的质量问题,也需要掌握DOE的基本技术。特别是黑带项目或者从事黑带工作,熟练运用DOE应该是基本功之一。
试验耗力费时,选择实验设计的类型也是很有讲究的:即使同一大类的设计中,不同的设计的“效率”也是不一样的。怎么能采用最少的试验次数获得更多更可靠的信息非常重要。
收起阅读 »
利用SPSS软件分析数据正态性
利用SPSS检验数据正态性分布
SPSS作为鼻祖级的统计工具,与MINITAB一样,成为时下最盛行的品质数据分析工具,上学期我们MBA课程也开设了此门课程,今天我们来谈谈一个最基本的功能,那就是正态性分布的检定,预备,分析走起!
正态分布也叫常态分布,日常生活中很多事情的数据分析都符合正态分布。下面的图就是正态分布曲线,中间隆起,对称向两边下降。
下面我们来看一组数据,并检验“期初平均分” 数据是否呈正态分布(此数据已在SPSS里输入好)
在SPSS里执行“分析—>描述统计—>频数统计表”(菜单见下图,英文版的可以找到相应位置),然后弹出左边的对话框,变量选择左边的“期初平均分”,再点下面的“图表”按钮,弹出图中右边的对话框,选择“直方图”,并选中“包括正态曲线”
设置完后点“确定”,就后会出来一系列结果,包括2个表格和一个图,我们先来看看最下面的图,见下图,
上图中横坐标为期初平均分,纵坐标为分数出现的频数。从图中可以看出根据直方图绘出的曲线是很像正态分布曲线。如何证明这些数据符合正态分布呢,光看曲线还不够,还需要检验:
检验方法一:看偏度系数和峰度系数
我们把SPSS结果最上面的一个表格拿出来看看(见下图):
偏度系数Skewness=-0.333;峰度系数Kurtosis=0.886;两个系数都小于1,可认为近似于正态分布。
检验方法二:单个样本K-S检验
在SPSS里执行“分析—>非参数检验—>单个样本K-S检验,弹出对话框,检验变量选择“期初平均分”,检验分布选择“正态分布”,然后点“确定”。
检验结果为:
从结果可以看出,K-S检验中,Z值为0.493,P值 (sig 2-tailed)=0.968>0.05,因此数据呈近似正态分布
检验方法三:Q-Q图检验
在SPSS里执行“图表—>Q-Q图”,弹出对话框,见下图:
变量选择“期初平均分”,检验分布选择“正态”,其他选择默认,然后点“确定”,最后可以得到Q-Q图检验结果,结果很多,我们只需要看最后一个图,见下图。
QQ Plot 中,各点近似围绕着直线,说明数据呈近似正态分布。
好了好了,今天课程到此结束,各位有问题,记得跟我联系哦!
收起阅读 »
SPSS作为鼻祖级的统计工具,与MINITAB一样,成为时下最盛行的品质数据分析工具,上学期我们MBA课程也开设了此门课程,今天我们来谈谈一个最基本的功能,那就是正态性分布的检定,预备,分析走起!
正态分布也叫常态分布,日常生活中很多事情的数据分析都符合正态分布。下面的图就是正态分布曲线,中间隆起,对称向两边下降。
下面我们来看一组数据,并检验“期初平均分” 数据是否呈正态分布(此数据已在SPSS里输入好)
在SPSS里执行“分析—>描述统计—>频数统计表”(菜单见下图,英文版的可以找到相应位置),然后弹出左边的对话框,变量选择左边的“期初平均分”,再点下面的“图表”按钮,弹出图中右边的对话框,选择“直方图”,并选中“包括正态曲线”
设置完后点“确定”,就后会出来一系列结果,包括2个表格和一个图,我们先来看看最下面的图,见下图,
上图中横坐标为期初平均分,纵坐标为分数出现的频数。从图中可以看出根据直方图绘出的曲线是很像正态分布曲线。如何证明这些数据符合正态分布呢,光看曲线还不够,还需要检验:
检验方法一:看偏度系数和峰度系数
我们把SPSS结果最上面的一个表格拿出来看看(见下图):
偏度系数Skewness=-0.333;峰度系数Kurtosis=0.886;两个系数都小于1,可认为近似于正态分布。
检验方法二:单个样本K-S检验
在SPSS里执行“分析—>非参数检验—>单个样本K-S检验,弹出对话框,检验变量选择“期初平均分”,检验分布选择“正态分布”,然后点“确定”。
检验结果为:
从结果可以看出,K-S检验中,Z值为0.493,P值 (sig 2-tailed)=0.968>0.05,因此数据呈近似正态分布
检验方法三:Q-Q图检验
在SPSS里执行“图表—>Q-Q图”,弹出对话框,见下图:
变量选择“期初平均分”,检验分布选择“正态”,其他选择默认,然后点“确定”,最后可以得到Q-Q图检验结果,结果很多,我们只需要看最后一个图,见下图。
QQ Plot 中,各点近似围绕着直线,说明数据呈近似正态分布。
好了好了,今天课程到此结束,各位有问题,记得跟我联系哦!
收起阅读 »
1分钟教你制作双因素方差分析
作为一位生物学家,您正在研究生活在两个湖中的浮游动物。您在实验室中放置了十二个容器,每六个容器一组分别装有取自两个湖的水。您在每个容器中添加了三种营养补充物质中的一种,30 天后对单位体积水中的浮游动物进行计数。您使用双因子方差分析检验总体平均值是否相等,这相当于检验是否有显著证据证明存在交互作用 和主效应 。
操作:
1, 6SQ统计--方差分析--双因素方差分析(交叉的)
2,输入因素A水平数 3 因素B水平数 2 重复试验次数 2
3,点击设计输出空白表格
4,填入实验数据
5,输入因素A水平数 3 因素B水平数 2 重复试验次数 2
选择全部的红框内数据
6,点击确认,输出分析结果
解释结果
双因子方差分析的默认输出为方差分析表 。对于浮游动物数据,如果可接受值小于 0.145(交互作用 F 检验的 p 值 ),则没有显著证据表明存在补充物质*湖水交互作用效应或湖水主效应。当 alpha 水平 为 0.05 时,由于 F 检验 p 值为 0.015,因此有显著证据表明存在补充物质主效应。
Excel数据
http://pan.baidu.com/s/1i5AXSRN
6SQ统计3.0企业版90天试用下载 http://pan.baidu.com/s/1i5AXSRN 收起阅读 »
操作:
1, 6SQ统计--方差分析--双因素方差分析(交叉的)
2,输入因素A水平数 3 因素B水平数 2 重复试验次数 2
3,点击设计输出空白表格
4,填入实验数据
5,输入因素A水平数 3 因素B水平数 2 重复试验次数 2
选择全部的红框内数据
6,点击确认,输出分析结果
解释结果
双因子方差分析的默认输出为方差分析表 。对于浮游动物数据,如果可接受值小于 0.145(交互作用 F 检验的 p 值 ),则没有显著证据表明存在补充物质*湖水交互作用效应或湖水主效应。当 alpha 水平 为 0.05 时,由于 F 检验 p 值为 0.015,因此有显著证据表明存在补充物质主效应。
Excel数据
http://pan.baidu.com/s/1i5AXSRN
6SQ统计3.0企业版90天试用下载 http://pan.baidu.com/s/1i5AXSRN 收起阅读 »
1分钟教你制作单因素方差分析
您设计了一项试验来评估四种试验性地毯产品的耐用性。您将这些地毯产品中每种的一个样本分别铺在四个家庭,并在 60 天后测量其耐用性。
共四种地毯,每个地毯实验四次。
操作:
1, 6SQ统计--方差分析--单因素方差
2,输入因素水平数 4 试验次数 4
3, 点击设计,输出表格
4,填入实验数据
5,选择上所有红框的内容, 因素水平数 4 试验次数4
6,点确认,输出分析结果
在方差分析表 中,地毯的 p 值 (0.047) 表明,有足够证据证明,当 alpha 设置为 0.05 时,并非所有平均值都相等。
Excel数据
http://pan.baidu.com/s/1i5AXSRN
6SQ统计3.0企业版90天试用下载 http://pan.baidu.com/s/1i5AXSRN 收起阅读 »
共四种地毯,每个地毯实验四次。
操作:
1, 6SQ统计--方差分析--单因素方差
2,输入因素水平数 4 试验次数 4
3, 点击设计,输出表格
4,填入实验数据
5,选择上所有红框的内容, 因素水平数 4 试验次数4
6,点确认,输出分析结果
在方差分析表 中,地毯的 p 值 (0.047) 表明,有足够证据证明,当 alpha 设置为 0.05 时,并非所有平均值都相等。
Excel数据
http://pan.baidu.com/s/1i5AXSRN
6SQ统计3.0企业版90天试用下载 http://pan.baidu.com/s/1i5AXSRN 收起阅读 »
1分钟教你制作双方差检验
为了提高家庭暖气系统的效率,进行了一项旨在评估两种设备功效的研究。安装其中一种设备后,对房舍的能耗进行了测量。这两种设备分别是电动气闸(气闸 1)和热活化气闸(气闸 2)。能耗数据(气闸内置能量消耗)堆叠在一列中,另外还有一个分组列(气闸),包含用于表示总体的标识符或下标。您要比较两个总体的方差,以便构造用于比较两个气闸的双样本 t 检验和置信区间 。
数据:
气闸内置能量消耗_1 气闸内置能量消耗_2
7.87 12.28
9.43 7.23
7.16 2.97
8.67 8.81
12.31 9.27
9.84 11.29
16.90 8.29
10.04 9.96
12.62 10.30
7.62 16.06
11.12 14.24
13.43 11.43
9.07 10.28
6.94 13.60
10.28 5.94
9.37 10.36
7.93 6.85
13.96 6.72
6.80 10.21
4.00 8.61
8.58 11.62
8.00 11.21
5.98 10.95
15.24 7.62
8.54 10.40
11.09 12.92
11.70 15.12
12.71 13.47
6.78 8.47
9.82 11.70
12.91 7.73
10.35 8.37
9.60 7.29
9.58 10.49
9.83 8.69
9.52 8.26
18.26 7.69
10.64 12.19
6.62 5.56
5.20 9.76
* 7.15
* 12.69
* 13.38
* 13.11
* 10.50
* 14.35
* 13.42
* 6.35
* 9.83
* 12.16
操作:
1, 6SQ统计--估计和假设检验--双方差检验
2, 选择样本1数据列和样本2数据列
3, 确认,输出结果
解释结果
方差检验会生成一个图,该图显示两个因子水平的总体标准差的 95% Bonferroni 置信区间。该图形还显示两个样本的原始数据的并列箱线图。最后,在会话窗口和图形中都给出了 F 检验和 Levene 检验的结果。当数据来自正态分布时解释 F 检验,当数据来自连续但不一定正态的分布时使用 Levene 检验。请注意,95% 置信区间适用于区间族,区间的非对称性是由卡方分布的偏度造成的。
对于该能耗示例来说,p 值 0.558 和 0.996 都大于 a 的合理选择范围,因此无法否定方差相等的原假设 。也就是说,这些数据并未提供足够证据证明两个总体的方差不相等。因此,使用双样本 t 过程时假定方差相等是合理的。
excel案例数据
http://pan.baidu.com/s/1i5AXSRN
6SQ统计3.0企业版90天试用下载 http://pan.baidu.com/s/1i5AXSRN 收起阅读 »
数据:
气闸内置能量消耗_1 气闸内置能量消耗_2
7.87 12.28
9.43 7.23
7.16 2.97
8.67 8.81
12.31 9.27
9.84 11.29
16.90 8.29
10.04 9.96
12.62 10.30
7.62 16.06
11.12 14.24
13.43 11.43
9.07 10.28
6.94 13.60
10.28 5.94
9.37 10.36
7.93 6.85
13.96 6.72
6.80 10.21
4.00 8.61
8.58 11.62
8.00 11.21
5.98 10.95
15.24 7.62
8.54 10.40
11.09 12.92
11.70 15.12
12.71 13.47
6.78 8.47
9.82 11.70
12.91 7.73
10.35 8.37
9.60 7.29
9.58 10.49
9.83 8.69
9.52 8.26
18.26 7.69
10.64 12.19
6.62 5.56
5.20 9.76
* 7.15
* 12.69
* 13.38
* 13.11
* 10.50
* 14.35
* 13.42
* 6.35
* 9.83
* 12.16
操作:
1, 6SQ统计--估计和假设检验--双方差检验
2, 选择样本1数据列和样本2数据列
3, 确认,输出结果
解释结果
方差检验会生成一个图,该图显示两个因子水平的总体标准差的 95% Bonferroni 置信区间。该图形还显示两个样本的原始数据的并列箱线图。最后,在会话窗口和图形中都给出了 F 检验和 Levene 检验的结果。当数据来自正态分布时解释 F 检验,当数据来自连续但不一定正态的分布时使用 Levene 检验。请注意,95% 置信区间适用于区间族,区间的非对称性是由卡方分布的偏度造成的。
对于该能耗示例来说,p 值 0.558 和 0.996 都大于 a 的合理选择范围,因此无法否定方差相等的原假设 。也就是说,这些数据并未提供足够证据证明两个总体的方差不相等。因此,使用双样本 t 过程时假定方差相等是合理的。
excel案例数据
http://pan.baidu.com/s/1i5AXSRN
6SQ统计3.0企业版90天试用下载 http://pan.baidu.com/s/1i5AXSRN 收起阅读 »
1分钟教你制作单方差检验
您在一家制造飞机发动机的高精度部件(包括测量长度必须为 15 英寸的金属销栓)的工厂任质量控制检验员。安全法规定,销栓长度的方差不得超过 0.001in2。以前的分析表明,销栓长度服从正态分布。您收集了 100 个销栓的样本,并对其长度进行了测量,以便进行假设检验并为总体方差创建一个置信区间。
销长度
14.99
15.01
14.96
15
15.03
14.96
14.99
14.96
14.96
15.05
15.03
15.05
14.99
14.98
14.94
14.96
14.97
15.02
14.95
15.02
15.02
14.98
15
15
14.95
14.99
14.98
15.01
14.95
14.96
15.05
15.01
15.04
14.97
14.98
14.99
14.95
14.98
14.98
15
15
15
14.97
14.99
15.02
14.96
14.96
15.01
15.01
15
14.97
15.02
15.02
15.01
15.03
14.98
15.01
15
15.02
15.03
15.01
14.98
14.96
14.97
14.97
14.99
14.99
14.96
15.03
14.99
14.98
14.99
15.03
15.02
15
15.01
15.02
15
14.95
14.97
15.01
14.96
15
14.95
15.03
15.03
14.99
15
15.01
14.97
14.99
15
14.97
15.02
15
14.97
14.96
15
14.99
14.94
操作:
1, 6SQ统计--估计和假设检验--单方差检验
2, 选择方差 填入假设方差0.001
选择样本数据
备择假设选择小于
3, 点确定,输出结果
解释结果
由于数据来自正态分布总体,因此请参考卡方方法。单侧假设检验的 p 值为 0.014。此值足够低,可以否定原假设,并可推断销长度的方差小于 0.001。通过考查 95% 的置信上限,可以使总体方差的估计值更确切,该置信上限提供总体方差可能低于的值。从此分析中应该能推断出,销栓长度的方差足够小,可以满足规范并确保乘客安全。
Excel案例数据
http://pan.baidu.com/s/1i5AXSRN
6SQ统计3.0企业版90天试用下载 http://pan.baidu.com/s/1i5AXSRN 收起阅读 »
销长度
14.99
15.01
14.96
15
15.03
14.96
14.99
14.96
14.96
15.05
15.03
15.05
14.99
14.98
14.94
14.96
14.97
15.02
14.95
15.02
15.02
14.98
15
15
14.95
14.99
14.98
15.01
14.95
14.96
15.05
15.01
15.04
14.97
14.98
14.99
14.95
14.98
14.98
15
15
15
14.97
14.99
15.02
14.96
14.96
15.01
15.01
15
14.97
15.02
15.02
15.01
15.03
14.98
15.01
15
15.02
15.03
15.01
14.98
14.96
14.97
14.97
14.99
14.99
14.96
15.03
14.99
14.98
14.99
15.03
15.02
15
15.01
15.02
15
14.95
14.97
15.01
14.96
15
14.95
15.03
15.03
14.99
15
15.01
14.97
14.99
15
14.97
15.02
15
14.97
14.96
15
14.99
14.94
操作:
1, 6SQ统计--估计和假设检验--单方差检验
2, 选择方差 填入假设方差0.001
选择样本数据
备择假设选择小于
3, 点确定,输出结果
解释结果
由于数据来自正态分布总体,因此请参考卡方方法。单侧假设检验的 p 值为 0.014。此值足够低,可以否定原假设,并可推断销长度的方差小于 0.001。通过考查 95% 的置信上限,可以使总体方差的估计值更确切,该置信上限提供总体方差可能低于的值。从此分析中应该能推断出,销栓长度的方差足够小,可以满足规范并确保乘客安全。
Excel案例数据
http://pan.baidu.com/s/1i5AXSRN
6SQ统计3.0企业版90天试用下载 http://pan.baidu.com/s/1i5AXSRN 收起阅读 »
【原创】方差分析原理解析
潜水很长时间,第一次发帖请多关照。今天是元宵佳节,祝大家团团圆圆,元宵节快乐安康。
在论坛中潜水期间,学习到了很多专业人士的卓越见解,因此也希望所学所获能与大家分享,算是一种感恩与回馈。
文章来自微信公众号“Excel与Minitab”大家不要误会,并非广告贴,只因微信公众号的文章能插入动态图片便于阅读与在Minitab中操作。原文链接如下就不显示了。
我们比较两个正态样本时可以采用假设检验,如果我们要比较三个样本是否有差异时,例如我们要比较三个供应商提供的同一类型的零件强度是否有明显差异,在我们用双样本假设检验进行两两比较,甲乙,甲丙,乙丙,需要比较三次,且置信水平为0.95%3=85.7%,如果我们比较更多的样本时,比较的数量以及置信区间均无法满足我们的需求,这时假设检验已经无法适用,在此我们引入方差分析的方法比较多个均值是否一致。因此方差分析的前提条件与双样本假设检验的前提条件是一致的,即满足:1,每一个总体的分布需要符合正态分布 2,各正态总体的方差相等 3,确保数据的独立性。
现实中,我们理解的方差分析不仅仅用于多个等方差正态总体的均值之间的比较;当我们怀疑某个变量(X)对结果(Y)可能存在影响时,我们需要在不同的X下,例如对X分别取值X1,X2,X3(X的三种水平下重复试验)比较与之对应的Y1,Y2,Y3,然后我们使用方差分析比较Y1,Y2,Y3的均值,以确定X对于Y来讲是否为一个有影响的因素,试想如果X对Y没有影响,不论X取什么值,只要其他条件不变输出Y都应该是差不多的,用专业的统计术语即试验的观测值Y们之间的均值没有显著差异,因此方差分析是我们找寻关键因素的关键。
基于上述三个基本条件,我们在单因子ANOVA分析过程中其实就是比较多个等方差的正态分布他们的均值有无显著差异,如果H0成立,各水平下的均值无显著差异,如下图,分布均值的Gap很小;
如果H1成立,即各水平下的均值不完全相同,如下图,分布均值的Gap很大。
其分析原理:
(组间方差/自由度A):(组内方差/自由度e)服从F分布--我们在《三类等方差检验》一文中讲过F分布,两个独立的卡方分布(正态分布的平方和)除以各自自由度服从F分布,我们在此用于方差分析,如果F值落入拒绝域,认为Gap足够大,即该因子影响显著。注意其中组间偏差的自由度fA=水平数r-1,组内偏差自由度=试验总次数n-水平数r。
读到这里,也许你已经完全明白了,也许还不是太明白方差分析的原理,我们比较均值最终是通过比较方差来实现的,为什么?为什么方差分析法可以分析各样本均值是否相等?通过5WHY我们再理一理其中的逻辑,如下图:
通过一个例子我们再次理解一下上述5WHY图中所述的随机误差与系统误差。
判断温度是否对产出有影响,在4个不同温度下分别进行了5次试验
我们看到即使在同一温度下,例如60度下的五个产出值并不完全一样,因为过程受到一些随机因素的影响,这时实测值与理论真值(我们通常认为平均值接近于理论真值故实际计算时用均值代替,下文的均值等同于理论真值)的偏离(方差)为随机误差,同一温度下各测量值与该温度下均值的方差又称之为组内方差,所以组内的方差只包含随机误差;我们再来看不同温度下的产出值,它们的均值上的差异时由于温度不同造成的,我们称之为系统误差,从数据上来看,不同温度组的产出值的组间方差既有不同温度带来的系统误差,也有随机因素造成的随机误差。如果该因素“温度”并不影响产出的话,那么组间方差中的系统误差部分应该接近于0,那么总的组间方差应该会接近于总的组内方差(组内方差只含随机误差),二者的比值就接近于1;反之,如果该因素对于输出有显著影响的话,组间方差则主要由系统误差构成,总的组间方差与总的随机方差的比值就比较大,而且该值越大因子效应越显著。根据前文统计基础《三大分布》中所述,两组方差与自由度之比(两卡方分布之比)符合F分布,因此方差分析的统计量为F值=(组间方差/自由度A):(组内方差/自由度e),拒绝域临界值为F1-α(dfA,dfe)。
相关案例如何在Minitab中操作,由于无法显示动态gif图片,就在本文省略了。文章不足之处,欢迎大家批评指正,谢谢。圣人云:“君子以文会友,以友辅仁”,Email:[email]neverlookbackxjy@163.com[/email]
收起阅读 »
在论坛中潜水期间,学习到了很多专业人士的卓越见解,因此也希望所学所获能与大家分享,算是一种感恩与回馈。
文章来自微信公众号“Excel与Minitab”大家不要误会,并非广告贴,只因微信公众号的文章能插入动态图片便于阅读与在Minitab中操作。原文链接如下就不显示了。
我们比较两个正态样本时可以采用假设检验,如果我们要比较三个样本是否有差异时,例如我们要比较三个供应商提供的同一类型的零件强度是否有明显差异,在我们用双样本假设检验进行两两比较,甲乙,甲丙,乙丙,需要比较三次,且置信水平为0.95%3=85.7%,如果我们比较更多的样本时,比较的数量以及置信区间均无法满足我们的需求,这时假设检验已经无法适用,在此我们引入方差分析的方法比较多个均值是否一致。因此方差分析的前提条件与双样本假设检验的前提条件是一致的,即满足:1,每一个总体的分布需要符合正态分布 2,各正态总体的方差相等 3,确保数据的独立性。
现实中,我们理解的方差分析不仅仅用于多个等方差正态总体的均值之间的比较;当我们怀疑某个变量(X)对结果(Y)可能存在影响时,我们需要在不同的X下,例如对X分别取值X1,X2,X3(X的三种水平下重复试验)比较与之对应的Y1,Y2,Y3,然后我们使用方差分析比较Y1,Y2,Y3的均值,以确定X对于Y来讲是否为一个有影响的因素,试想如果X对Y没有影响,不论X取什么值,只要其他条件不变输出Y都应该是差不多的,用专业的统计术语即试验的观测值Y们之间的均值没有显著差异,因此方差分析是我们找寻关键因素的关键。
基于上述三个基本条件,我们在单因子ANOVA分析过程中其实就是比较多个等方差的正态分布他们的均值有无显著差异,如果H0成立,各水平下的均值无显著差异,如下图,分布均值的Gap很小;
如果H1成立,即各水平下的均值不完全相同,如下图,分布均值的Gap很大。
其分析原理:
(组间方差/自由度A):(组内方差/自由度e)服从F分布--我们在《三类等方差检验》一文中讲过F分布,两个独立的卡方分布(正态分布的平方和)除以各自自由度服从F分布,我们在此用于方差分析,如果F值落入拒绝域,认为Gap足够大,即该因子影响显著。注意其中组间偏差的自由度fA=水平数r-1,组内偏差自由度=试验总次数n-水平数r。
读到这里,也许你已经完全明白了,也许还不是太明白方差分析的原理,我们比较均值最终是通过比较方差来实现的,为什么?为什么方差分析法可以分析各样本均值是否相等?通过5WHY我们再理一理其中的逻辑,如下图:
通过一个例子我们再次理解一下上述5WHY图中所述的随机误差与系统误差。
判断温度是否对产出有影响,在4个不同温度下分别进行了5次试验
我们看到即使在同一温度下,例如60度下的五个产出值并不完全一样,因为过程受到一些随机因素的影响,这时实测值与理论真值(我们通常认为平均值接近于理论真值故实际计算时用均值代替,下文的均值等同于理论真值)的偏离(方差)为随机误差,同一温度下各测量值与该温度下均值的方差又称之为组内方差,所以组内的方差只包含随机误差;我们再来看不同温度下的产出值,它们的均值上的差异时由于温度不同造成的,我们称之为系统误差,从数据上来看,不同温度组的产出值的组间方差既有不同温度带来的系统误差,也有随机因素造成的随机误差。如果该因素“温度”并不影响产出的话,那么组间方差中的系统误差部分应该接近于0,那么总的组间方差应该会接近于总的组内方差(组内方差只含随机误差),二者的比值就接近于1;反之,如果该因素对于输出有显著影响的话,组间方差则主要由系统误差构成,总的组间方差与总的随机方差的比值就比较大,而且该值越大因子效应越显著。根据前文统计基础《三大分布》中所述,两组方差与自由度之比(两卡方分布之比)符合F分布,因此方差分析的统计量为F值=(组间方差/自由度A):(组内方差/自由度e),拒绝域临界值为F1-α(dfA,dfe)。
相关案例如何在Minitab中操作,由于无法显示动态gif图片,就在本文省略了。文章不足之处,欢迎大家批评指正,谢谢。圣人云:“君子以文会友,以友辅仁”,Email:[email]neverlookbackxjy@163.com[/email]
收起阅读 »