一、卡方检验基本思想
在分类资料统计分析中我们常会遇到这样的资料,如两组大白鼠在不同致癌剂作用下的发癌率如下表,问两组发癌率有无差别?
处理 发癌数 未发癌数 合计 发癌率%
甲组 52 19 71 73.24
乙组 39 3 42 92.86
合计 91 22 113 80.33
52 |
19 |
39 |
3 |
是表中最基本的数据,因此上表资料又被称之为四格表资料。卡方检验的统计量是卡方值,它是每个格子实际频数A与理论频数T
差值平方与理论频数之比的累计和。每个格子中的理论频数T是在假定两组的发癌率相等(均等于两组合计的发癌率)的情况下计算出来的,如第一行第一列的理论频数为71*91/113=57.18,故卡方值越大,说明实际频数与理论频数的差别越明显,两组发癌率不同的可能性越大。
二、四格表资料的卡方检验
四格表资料的卡方检验用于进行两个率或两个构成比的比较。
1. 专用公式:
若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=(ad-bc)2*n/(a+b)(c+d)(a+c)(b+d),
自由度v=(行数-1)(列数-1)
2. 应用条件:
要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,当样本含量小于40时只能用确切概率法计算概率。
三、行X列表资料的卡方检验
行X列表资料的卡方检验用于多个率或多个构成比的比较。
1. 专用公式:
r行c列表资料卡方检验的卡方值=n[(A11/n1n1+A12/n1n2+...+Arc/nrnc)-1]
2. 应用条件:
要求每个格子中的理论频数T均大于5或1<T<5的格子数不超过总格子数的1/5。当有T<1或1<T<5的格子较多时,可采用并行并列、删行删列、增大样本含量的办法使其符合行X列表资料卡方检验的应用条件。而多个率的两两比较可采用行X列表分割的办法。
四、列联表资料的卡方检验:
同一组对象,观察每一个个体对两种分类方法的表现,结果构成双向交叉排列的统计表就是列联表。
1. R*C 列联表的卡方检验:
R*C 列联表的卡方检验用于R*C列联表的相关分析,卡方值的计算和检验过程与行X列表资料的卡方检验相同。
2. 2*2列联表的卡方检验:
2*2列联表的卡方检验又称配对记数资料或配对四格表资料的卡方检验,根据卡方值计算公式的不同,可以达到不同的目的。当用一般四格表的卡方检验计算时,卡方值=(ad-bc)2n/(a+b)(c+d)(a+c)(b+d),此时用于进行配对四格表的相关分析,如考察两种检验方法的结果有无关系;当卡方值=(|b-c|-1)2/(b+c)时,此时卡方检验用来进行四格表的差异检验,如考察两种检验方法的检出率有无差别。
列联表卡方检验应用中的注意事项同R*C表的卡方检验相同。