您还没有绑定微信,更多功能请点击绑定

Kappa的计算公式

有没有高手知道Kappa的计算公式啊?
就是属性一致性分析所使用的Kappa统计量,我们现在自编了一个软件,需要计算这个kappa,程序中需导入kappa的计算公式
对“好”的回答一定要点个"赞",回答者需要你的鼓励!
已邀请:

look2013 (威望:12) (北京 海淀区) 汽车制造相关 其它

赞同来自: 蓝羽 mushroom159

我们仍用MSA手册中的例子来做说明。两评价人A和B分别对随机抽取的50个零件进行测量,对每个零件的测量随机地重复了3次。设定1表示可接受的决定(即评为1类),0表示不可接受的决定(即评为0类)。测量结果用以下交叉表列出。

科恩(Cohen)给出的Kappa计算公式为:


MSA手册中定义P0为对角栏框中(观测)计数占总计数的比例,Pe为对角栏框中期望计数占总计数的比例。(第三版中文MSA手册中翻译有误,这里是按英文版翻译过来的)
(观测)计数容易理解,如对角栏框中的44表示A和B都评为0类的测量次数,97表示A和B都评为1类的测量次数,而6则表示A评为0类但B评为1类的测量次数,3则表示A评为1类但B评为0类的测量次数。
因此, ,P0也就是评价人A和B在测量中实际一致性的比率。

那期望计数是指什么呢?假如这两位评价人都是任意地(猜测)将50 个零件判定为可接受或不可接受,其结果也会达到一定程度的一致,不过这里的一致是偶然达到的,这种偶然达到的一致性比率称为偶然一致性比率,也就是Kappa计算中的Pe。当评价人A 与B 随机地作评价时,此两人行动一定是独立的,互不影响,从而两人同评为0 类的概率为P0+×P+0,两人同评为1 类的概率为P1+×P+1。(这里P0+表示A评价人评为0类的测量次数占总测量次数的比率,P1+表示A评价人评为1类的测量次数占总测量次数的比率;同理P+0、P+1分别表示B评价人评为0类的测量次数占总测量次数的比率,和B评价人评为1类的测量次数占总测量次数的比率。这时偶然一致性比率Pe = P0+×P+0+ P1+×P+1。
因此,
这里15.7和68.7分别就是两评价人同时评为0类和1类的期望计数,分别为对应单元格行总计数乘以列总计数除以总计数(即总测量次数)所得。同样31.3和34.3这两个期望计数也是按同样方式得出的。

可以看出,期望计数就是指两评价人因偶然性而使其判定可能达到一致的期望值或预期值。在计算kappa时,分子分母同时减去偶然一致比率Pe目的就是为了消除因偶然性造成的评价的一致性,使kappa测量一致性的程度更有效用。

计数型测量系统研究的假设试验分析法(2009-07-08 01:42:56)
标签:测量系统分析 msa 计数型 杂谈
分类:测量系统分析MSA

假设试验分析法是评估计量型测量系统风险的分析方法之一。该方法对测量系统的评价包括两个方面:一方面运用Kappa对评价人之间的一致性和评价人与标准之间的一致性进行衡量,另一方面就是对测量系统的有效性进行评价。所以说,Kappa分析仅仅是计数型测量系统分析的一部分工作,要判定计数型测量系统是否合适还要对测量系统的有效性进行评价。

MSA手册中通过例子的形式已经说明了如何进行计数型测量系统有效性的分析,但对于有效性的置信区间如何计算以及漏发警报率和误发警报率如何计算都没有明示的说明。

我们仍然分析MSA手册中的例子(见MSA中文第三版P127表12)。通过表12记录的研究数据,我们知道参考值显示合格的零件有34件,不合格的有16件。其中,39件是A、B、C三个评价者三次测量都判定与参考值一致的;评价者A有8个零件的判定结果与参考值不一致,其中5次将合格零件判定为不合格,3次将不合格零件判定为合格;评价者B有5个零件的判定结果与参考值不一致,其中2次将合格零件判定为不合格,3次将不合格零件判定为合格;评价者C则有10个零件的判定结果与参考值不一致,其中9次将合格零件判定为不合格,6次将不合格零件判定为合格。(这里要注意到判定结果与参考值不一致的零件数不一定等于将合格零件判定为不合格以及将不合格零件判定为合格的总次数,因为每个评价者分别对50个零件各测试了3次,在判定结果不一致的零件中,有1次的结果不一致的,也有2次的结果不一致的)。

根据上述原始统计信息,我们可以分别计算出A、B、C三个评价者测量的有效性和整个测量系统的有效性。





那么我们可以算出在这个例子中:







实际上根据随机抽样检验所计算出的有效性是需要估计置信区间的,按95%的置信度来估计,评价者测量的有效性和测量系统的有效性置信区间的上下限值可依据Beta分布的分位数来确定。

置信上限的计算公式为:Betainv(1-α/2,B+1,A-B)
置信下限的计算公式为:1-Betainv(1-α/2,A-B+1,B)

在置信度为95%时,显著水平α=5%,因此1-α/2=0.975,上述公式中A为总零件数,B为判定结果与参考值一致的零件数。我们通过Microsoft Excel可以计算出评价者A、B、C测量有效性以及测量系统有效性的置信上限和下限。

评价者A的95%UCL=Betainv(0.975,42+1,50-42)=93%
评价者A的95%LCL=1-Betainv(0.975,50-42+1,42)=71%
评价者B的95%UCL=Betainv(0.975,45+1,50-45)=97%
评价者B的95%LCL=1-Betainv(0.975,50-45+1,45)=78%
评价者C的95%UCL=Betainv(0.975,40+1,50-40)=90%
评价者C的95%LCL=1-Betainv(0.975,50-40+1,40)=66%
测量系统的95%UCL=Betainv(0.975,39+1,50-39)=89%
测量系统的95%LCL=1-Betainv(0.975,50-39+1,39)=64%

评定测量有效性还有另外两个指标,一个是漏发警报率(β风险,第II类风险,顾客风险),另一个是误发警报率(α风险,第I类风险,生产者风险)。中文第三版MSA手册中把漏发警报率(Miss Rate)翻译成错误率,把误发警报率(False Alarm Rate)翻译成错误报警率,这种翻译不妥当,不太容易让人理解。

那么这两个指标是如何计算的呢?其计算公式如下:







这里要注意理解“机会数”。在本案例中,由于每人对每个零件测量了3次,所以不合格机会总数和合格机会总数应分别为不合格零件数和合格零件数的3倍;而误判合格的机会数就是对所有零件进行3次重复测量的过程中误判合格的总次数,同理误判不合格的机会数就是对所有零件进行3次重复测量的过程中误判不合格的总次数。如:整个测量分析过程中,不合格机会总数=不合格零件数×3=16×3=48;合格机会总数=合格零件数×3=34×3=102;评价者A误判为合格的机会数为3,误判为不合格的机会数为5;评价者B误判为合格的机会数为3,误判为不合格的机会数为2;评价者C误判为合格的机会数为6,误判为不合格的机会数为9。

计算结果如下:
评价者A的漏发警报率=3/48=6.3%,误发警报率=5/102=4.9%
评价者B的漏发警报率=3/48=6.3%,误发警报率=2/102=2.0%
评价者C的漏发警报率=6/48=12.5%,误发警报率=9/102=8.8%

11 个回复,游客无法查看回复,更多功能请登录注册

发起人

扫一扫微信订阅<6SQ每周精选>