各种检验的介绍

卡方检验

卡方检验是用途很广的一种假设检验方法，这里我们主要学习它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
一、卡方检验基本思想
在分类资料统计分析中我们常会遇到这样的资料，如两组大白鼠在不同致癌剂作用下的发癌率如下表，问两组发癌率有无差别？

处理发癌数未发癌数合计发癌率%

甲组 52 19 71 73.24
乙组 39 3 42 92.86

合计 91 22 113 80.33

52 19
39 3
是表中最基本的数据，因此上表资料又被称之为四格表资料。卡方检验的统计量是卡方值，它是每个格子实际频数A与理论频数T
差值平方与理论频数之比的累计和。每个格子中的理论频数T是在假定两组的发癌率相等（均等于两组合计的发癌率）的情况下计算出来的，如第一行第一列的理论频数为71*91/113=57.18，故卡方值越大，说明实际频数与理论频数的差别越明显，两组发癌率不同的可能性越大。
二、四格表资料的卡方检验
四格表资料的卡方检验用于进行两个率或两个构成比的比较。

]专用公式：[/

若四格表资料四个格子的频数分别为a，b，c，d，则四格表资料卡方检验的卡方值=（ad-bc）2*n/(a+b)(c+d)(a+c)(b+d)，
自由度v=（行数-1）（列数-1）

]应用条件：[/

要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正，当样本含量小于40时只能用确切概率法计算概率。
三、行X列表资料的卡方检验
行X列表资料的卡方检验用于多个率或多个构成比的比较。

]专用公式：[/

r行c列表资料卡方检验的卡方值=n

]应用条件：[/

要求每个格子中的理论频数T均大于5或1<T<5的格子数不超过总格子数的1/5。当有T<1或1<T<5的格子较多时，可采用并行并列、删行删列、增大样本含量的办法使其符合行X列表资料卡方检验的应用条件。而多个率的两两比较可采用行X列表分割的办法。
四、列联表资料的卡方检验：
同一组对象，观察每一个个体对两种分类方法的表现，结果构成双向交叉排列的统计表就是列联表。

]R

RC 列联表的卡方检验用于RC列联表的相关分析，卡方值的计算和检验过程与行X列表资料的卡方检验相同。

]2

2*2列联表的卡方检验又称配对记数资料或配对四格表资料的卡方检验，根据卡方值计算公式的不同，可以达到不同的目的。当用一般四格表的卡方检验计算时，卡方值=（ad-bc）2n/(a+b)(c+d)(a+c)(b+d)，此时用于进行配对四格表的相关分析，如考察两种检验方法的结果有无关系；当卡方值=（|b-c|-1）2/(b+c)时，此时卡方检验用来进行四格表的差异检验，如考察两种检验方法的检出率有无差别。
列联表卡方检验应用中的注意事项同R*C表的卡方检验相同。

t检验和u检验

简而言之，t检验和u检验就是统计量为t,u的假设检验，两者均是常见的假设检验方法。当样本含量n较大时，样本均数符合正态分布，故可用u检验进行分析。当样本含量n小时，若观察值x符合正态分布，则用t检验（因此时样本均数符合t分布），当x为未知分布时应采用秩和检验。
一、样本均数与总体均数比较的t检验
样本均数与总体均数比较的t检验实际上是推断该样本来自的总体均数µ与已知的某一总体均数µ0（常为理论值或标准值）有无差别。如根据大量调查，已知健康成年男性的脉搏均数为72次/分，某医生在一山区随即抽查了25名健康男性，求得其脉搏均数为74.2次/分，标准差为6.0次/分，问是否能据此认为该山区成年男性的脉搏均数高于一般成年男性。
上述两个均数不等既可能是抽样误差所致，也有可能真是环境差异的影响，为此，可用t检验进行判断，检验过程如下：

]建立假设[/

H0：µ=µ0=72次/分，H0：µ>µ0，检验水准为单侧0.05。

]计算统计量[/

进行样本均数与总体均数比较的t检验时t值为样本均数与总体均数差值的绝对值除以标准误的商，其中标准误为标准差除以样本含量算术平方根的商。

]确定概率，作出判断[/

以自由度v(样本含量n减1)查t界值表，0.025<P<0.05，拒绝H0，接受H1，可认为该山区成年男性的脉搏均数高于一般成年男性。
应注意的是，当样本含量n较大时，可用u检验代替t检验。
二、配对设计的t检验
配对设计是一种比较特殊的设计方式，能够很好地控制非实验因素对结果的影响，有自身配对和非自身配对之分。配对设计资料的t检验实际上是用配对差值与总体均数“0”进行比较，即推断差数的总体均数是否为“0”。故其检验过程与样本均数与总体均数比较的t检验类似，即：

]建立假设[/

H0：µd=0，即差值的总体均数为“0”，H1：µd>0或µd<0，即差值的总体均数不为“0”，检验水准为0.05。

]计算统计量[/

进行配对设计t检验时 t值为差值均数与0之差的绝对值除以差值标准误的商，其中差值标准误为差值标准差除以样本含量算术平方根的商。

]确定概率，作出判断[/

以自由度v(对子数减1)查t界值表，若P<0.05，则拒绝H0，接受H1，若P>=0.05，则还不能拒绝H0。
三、成组设计两样本均数比较的t检验
成组设计两样本均数比较的t检验又称成组比较或完全随机设计的t检验，其目的是推断两个样本分别代表的总体均数是否相等。其检验过程与上述两种t检验也没有大的差别，只是假设的表达和t值的计算公式不同。
两样本均数比较的t检验,其假设一般为：H0：µ1=µ2，即两样本来自的总体均数相等，H1：µ1>µ2或µ1<µ2，即两样本来自的总体均数不相等，检验水准为0.05。
计算t统计量时是用两样本均数差值的绝对值除以两样本均数差值的标准误。
应注意的是当样本含量n较大时（如大于100时）可用u检验代替t检验，此时u值的计算公式较t值的计算公式要简单的多。
四、t检验的应用条件和注意事项
两个小样本均数比较的t检验有以下应用条件：
（1）两样本来自的总体均符合正态分布，
（2）两样本来自的总体方差齐。
故在进行两小样本均数比较的t检验之前，要用方差齐性检验来推断两样本代表的总体方差是否相等，方差齐性检验的方法使用F检验，其原理是看较大样本方差与较小样本方差的商是否接近“1”。若接近“1”，则可认为两样本代表的总体方差齐。判断两样本来自的总体是否符合正态分布，可用正态性检验的方法。
若两样本来自的总体方差不齐，也不符合正态分布，对符合对数正态分布的资料可用其几何均数进行t检验，对其他资料可用t’检验或秩和检验进行分析。

二项分布与柏松分布

一、二项分布的概念及应用条件

]二项分布的概念: [/

如某实验中小白鼠染毒后死亡概率P为0.8,则生存概率为=1-P=0.2，故
对一只小白鼠进行实验的结果为：死（概率为P）或生（概率为1-P）
对二只小白鼠（甲乙）进行实验的结果为：甲乙均死（概率为P2）、甲死乙生、乙死甲生或甲乙均生，概率相加得P2+P(1-P)+(1-P）P+(1-P）2=2
依此类推，对n只小白鼠进行实验，所有可能结果的概率相加得Pn+cn1P(1-P)n-1+...+cnxPx(1-P)n-x+...+(1-P)x=n 其中n为样本含量,即事件发生总数，x为某事件出现次数,cnxPx(1-P)n-x为二项式通式，cnx=n!/x!(n-x)!, P为总体率。
因此，二项分布是说明结果只有两种情况的n次实验中发生某种结果为x次的概率分布。其概率密度为：
P(x)=cnxPx(1-P)n-x, x=0,1,...n。

]二项分布的应用条件:[/

医学领域有许多二分类记数资料都符合二项分布(传染病和遗传病除外)，但应用时仍应注意考察是否满足以下应用条件：(1) 每次实验只有两类对立的结果；(2) n次事件相互独立；(3) 每次实验某类结果的发生的概率是一个常数。

]二项分布的累计概率 [/

二项分布下最多发生k例阳性的概率为发生0例阳性、1例阳性、...、直至k例阳性的概率之和。至少发生k例阳性的概率为发生k例阳性、k+1例阳性、...、直至n例阳性的概率之和。

]二项分布的图形[/

二项分布的图形有如下特征：(1)二项分布图形的形状取决于P 和n 的大小；(2) 当P=0.5时，无论n的大小，均为对称分布；(3) 当P<>0.5 ,n较小时为偏态分布,n较大时逼近正态分布。

]二项分布的均数和标准差[/

二项分布的均数µ=np，当用率表示时µ=p
二项分布的标准差为np(1-p)的算术平方根，当用率表示时为p(1-p)的算术平方根。
二、二项分布的应用
二项分布主要用于符合二项分布分类资料的率的区间估计和假设检验。当P=0.5或n较大，nP及n(1-P)均大于等于5时，可用(p-u0.05sp,p+u0.05sp)对总体率进行95%的区间估计。当总体率P接近0.5，阳性数x较小时，可直接计算二项分布的累计概率进行单侧的假设检验。当P=0.5或n较大，nP及n(1-P)均大于等于5时，可用正态近似法进行样本率与总体率，两个样本率比较的u检验。
三、Poisson分布的概念及应用条件

]Poisson分布的概念:[/

Poisson分布是二项分布n很大而P很小时的特殊形式，是两分类资料在n次实验中发生x次某种结果的概率分布。其概率密度函数为：P(x)=e-µ*µx/x! x=0,1,2...n，其中e为自然对数的底，µ为总体均数，x为事件发生的阳性数。

]Poisson分布的应用条件:[/

医学领域中有很多稀有疾病(如肿瘤,交通事故等）资料都符合Poisson分布，但应用中仍应注意要满足以下条件：（1) 两类结果要相互对立；（2) n次试验相互独立；（3) n应很大, P应很小。

]Poisson分布的概率[/

Poisson分布的概率利用以下递推公式很容易求得：
P(0)=e-µ
P(x+1)=P(x)*µ/x+1, x=0,1,2,...

]Poisson分布的性质:[/

x的算术平方根，x+u0.05

]方差分析的概念[/

方差分析（ANOVA）又称变异数分析或F检验，其目的是推断两组或多组资料的总体均数是否相同，检验两个或多个样本均数的差异是否有统计学意义。我们要学习的主要内容包括单因素方差分析即完全随机设计或成组设计的方差分析和两因素方差分析即配伍组设计的方差分析。

]方差分析的基本思想[/

下面我们用一个简单的例子来说明方差分析的基本思想：
如某克山病区测得11例克山病患者和13名健康人的血磷值（mmol/L）如下，
患者：0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11
健康人：0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87
问该地克山病患者与健康人的血磷值是否不同？
从以上资料可以看出，24个患者与健康人的血磷值各不相同，如果用离均差平方和（SS）描述其围绕总均数的变异情况，则总变异有以下两个来源：
（1）组内变异，即由于随机误差的原因使得各组内部的血磷值各不相等；
（2）组间变异，即由于克山病的影响使得患者与健康人组的血磷值均数大小不等。
而且：SS总=SS组间+SS组内 v总=v组间+v组内
如果用均方（即自由度v去除离均差平方和的商）代替离均差平方和以消除各组样本数不同的影响，则方差分析就是用组内均方去除组间均方的商（即F值）与1相比较，若F值接近1，则说明各组均数间的差异没有统计学意义，若F值远大于1，则说明各组均数间的差异有统计学意义。实际应用中检验假设成立条件下F值大于特定值的概率可通过查阅F界值表（方差分析用）获得。

]方差分析的应用条件[/

应用方差分析对资料进行统计推断之前应注意其使用条件，包括：
（1）可比性，若资料中各组均数本身不具可比性则不适用方差分析。
（2）正态性，即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。
（3）方差齐性，即若组间方差不齐则不适用方差分析。多个方差的齐性检验可用Bartlett法，它用卡方值作为检验统计量，结果判断需查阅卡方界值表。
二、方差分析的主要内容
根据资料设计类型的不同，有以下两种方差分析的方法：

]对成组设计的多个样本均数比较，应采用完全随机设计的方差分析，即单因素方差分析。[/

]对随机区组设计的多个样本均数比较，应采用配伍组设计的方差分析，即两因素方差分析。[/

两类方差分析的基本步骤相同，只是变异的分解方式不同，对成组设计的资料，总变异分解为组内变异和组间变异（随机误差），即：SS总=SS组间+SS组内，而对配伍组设计的资料，总变异除了分解为处理组变异和随机误差外还包括配伍组变异，即：SS总=SS处理+SS配伍+SS误差。整个方差分析的基本步骤如下：
（1）建立检验假设；
H0：多个样本总体均数相等。
H1：多个样本总体均数不相等或不全等。
检验水准为0.05。
（2）计算检验统计量F值；
（3）确定P值并作出推断结果。
三、多个样本均数的两两比较
经过方差分析若拒绝了检验假设，只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息，应在方差分析的基础上进行多个样本均数的两两比较。

]多个样本均数间两两比较[/

多个样本均数间两两比较常用q检验的方法，即 Newman-kueuls法，其基本步骤为：
建立检验假设-->样本均数排序-->计算q值-->查q界值表判断结果。

]多个实验组与一个对照组均数间两两比较[/

多个实验组与一个对照组均数间两两比较，若目的是减小第II类错误，最好选用最小显著差法（LSD法）；若目的是减小第I类错误，最好选用新复极差法，前者查t界值表，后者查q’界值表。

假设检验概述
假设检验是用来判断样本与样本，样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
1.假设检验的基本思想
假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件（P<0.01或P<0.05）在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0)，再用适当的统计方法确定假设成立的可能性大小，如可能性小,则认为假设不成立，若可能性大，则还不能认为假设不成立。
2、假设检验的基本步骤
第一步：提出检验假设（又称无效假设）和备择假设。
H0：样本与总体或样本与样本间的差异是由抽样误差引起的。
H1：样本与总体或样本与样本间存在本质差异。
预先设定的检验水准为0.05。
第二步：选定统计方法，计算出统计量的大小。根据资料的类型和特点，可分别选用t检验，u检验，秩和检验和卡方检验等。
第三步：根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P值小于预先设定的检验水准，则H0成立的可能性小，即拒绝H0，若P值不小于预先设定的检验水准，则H0成立的可能性还不小，还不能拒绝H0。P值的大小一般可通过查阅相应的界值表得到。
3、进行假设检验应注意的问题
（1）做假设检验之前，应注意资料本身是否有可比性。
（2）当差别有统计学意义时应注意这样的差别在实际应用中有无意义。
（3）根据资料类型和特点选用正确的假设检验方法。
（4）根据专业及经验确定是选用单侧检验还是双侧检验。
（5）当检验结果为拒绝无效假设时，应注意有发生I类错误的可能性，即错误地拒绝了本身成立的H0，发生这种错误的可能性预先是知道的，即检验水准那么大；当检验结果为不拒绝无效假设时，应注意有发生II类错误的可能性，即仍有可能错误地接受了本身就不成立的H0，发生这种错误的可能性预先是不知道的，但与样本含量和I类错误的大小有关系。
（6）判断结论时不能绝对化，应注意无论接受或拒绝检验假设，都有判断错误的可能性。
（7）报告结论时是应注意说明所用的统计量，检验的单双侧及P值的确切范围。

对“好”的回答一定要点个"赞"，回答者需要你的鼓励!

已邀请:

3 个回复

honesty (威望:4) (上海 ) 汽车制造相关经理 - I love this game I love ...

赞同来自:

要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正，当样本含量小于40时只能用确切概率法计算概率。

这个每个格子的理论频数不应小于5，是什么含义？具体是哪个格子，一直没有搞清楚这个问题，英文中用Note that there are two of six cells with expected counts less than five.

3 个回复，游客无法查看回复，更多功能请登录或注册

各种检验的介绍

3 个回复

发起人

问题状态

各种检验的介绍

与内容相关的链接

3 个回复

发起人

问题状态