各种检验的介绍
卡方检验
卡方检验是用途很广的一种假设检验方法,这里我们主要学习它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
一、卡方检验基本思想
在分类资料统计分析中我们常会遇到这样的资料,如两组大白鼠在不同致癌剂作用下的发癌率如下表,问两组发癌率有无差别?
处理 发癌数 未发癌数 合计 发癌率%
甲组 52 19 71 73.24
乙组 39 3 42 92.86
合计 91 22 113 80.33
52 19
39 3
是表中最基本的数据,因此上表资料又被称之为四格表资料。卡方检验的统计量是卡方值,它是每个格子实际频数A与理论频数T
差值平方与理论频数之比的累计和。每个格子中的理论频数T是在假定两组的发癌率相等(均等于两组合计的发癌率)的情况下计算出来的,如第一行第一列的理论频数为71*91/113=57.18,故卡方值越大,说明实际频数与理论频数的差别越明显,两组发癌率不同的可能性越大。
二、四格表资料的卡方检验
四格表资料的卡方检验用于进行两个率或两个构成比的比较。
自由度v=(行数-1)(列数-1)
三、行X列表资料的卡方检验
行X列表资料的卡方检验用于多个率或多个构成比的比较。
四、列联表资料的卡方检验:
同一组对象,观察每一个个体对两种分类方法的表现,结果构成双向交叉排列的统计表就是列联表。
列联表卡方检验应用中的注意事项同R*C表的卡方检验相同。
t检验和u检验
简而言之,t检验和u检验就是统计量为t,u的假设检验,两者均是常见的假设检验方法。当样本含量n较大时,样本均数符合正态分布,故可用u检验进行分析。当样本含量n小时,若观察值x符合正态分布,则用t检验(因此时样本均数符合t分布),当x为未知分布时应采用秩和检验。
一、样本均数与总体均数比较的t检验
样本均数与总体均数比较的t检验实际上是推断该样本来自的总体均数µ与已知的某一总体均数µ0(常为理论值或标准值) 有无差别。如根据大量调查,已知健康成年男性的脉搏均数为72次/分,某医生在一山区随即抽查了25名健康男性,求得其脉搏均数为74.2次/分,标准差为6.0次/分,问是否能据此认为该山区成年男性的脉搏均数高于一般成年男性。
上述两个均数不等既可能是抽样误差所致,也有可能真是环境差异的影响,为此,可用t检验进行判断,检验过程如下:
应注意的是,当样本含量n较大时,可用u检验代替t检验。
二、配对设计的t检验
配对设计是一种比较特殊的设计方式,能够很好地控制非实验因素对结果的影响,有自身配对和非自身配对之分。配对设计资料的t检验实际上是用配对差值与总体均数“0”进行比较,即推断差数的总体均数是否为“0”。故其检验过程与样本均数与总体均数比较的t检验类似,即:
三、成组设计两样本均数比较的t检验
成组设计两样本均数比较的t检验又称成组比较或完全随机设计的t检验,其目的是推断两个样本分别代表的总体均数是否相等。其检验过程与上述两种t检验也没有大的差别,只是假设的表达和t值的计算公式不同。
两样本均数比较的t检验,其假设一般为:H0:µ1=µ2,即两样本来自的总体均数相等,H1:µ1>µ2或µ1<µ2,即两样本来自的总体均数不相等,检验水准为0.05。
计算t统计量时是用两样本均数差值的绝对值除以两样本均数差值的标准误。
应注意的是当样本含量n较大时(如大于100时)可用u检验代替t检验,此时u值的计算公式较t值的计算公式要简单的多。
四、t检验的应用条件和注意事项
两个小样本均数比较的t检验有以下应用条件:
(1)两样本来自的总体均符合正态分布,
(2)两样本来自的总体方差齐。
故在进行两小样本均数比较的t检验之前,要用方差齐性检验来推断两样本代表的总体方差是否相等,方差齐性检验的方法使用F检验,其原理是看较大样本方差与较小样本方差的商是否接近“1”。若接近“1”,则可认为两样本代表的总体方差齐。判断两样本来自的总体是否符合正态分布,可用正态性检验的方法。
若两样本来自的总体方差不齐,也不符合正态分布,对符合对数正态分布的资料可用其几何均数进行t检验,对其他资料可用t’检验或秩和检验进行分析。
二项分布与柏松分布
一、二项分布的概念及应用条件
对一只小白鼠进行实验的结果为:死(概率为P)或生(概率为1-P)
对二只小白鼠(甲乙)进行实验的结果为:甲乙均死(概率为P2)、甲死乙生、乙死甲生或甲乙均生,概率相加得P2+P(1-P)+(1-P)P+(1-P)2=2
依此类推,对n只小白鼠进行实验,所有可能结果的概率相加得Pn+cn1P(1-P)n-1+...+cnxPx(1-P)n-x+...+(1-P)x=n 其中n为样本含量,即事件发生总数,x为某事件出现次数,cnxPx(1-P)n-x为二项式通式,cnx=n!/x!(n-x)!, P为总体率。
因此,二项分布是说明结果只有两种情况的n次实验中发生某种结果为x次的概率分布。其概率密度为:
P(x)=cnxPx(1-P)n-x, x=0,1,...n。
二项分布的标准差为np(1-p)的算术平方根,当用率表示时为p(1-p)的算术平方根。
二、二项分布的应用
二项分布主要用于符合二项分布分类资料的率的区间估计和假设检验。当P=0.5或n较大,nP及n(1-P)均大于等于5时,可用(p-u0.05sp,p+u0.05sp)对总体率进行95%的区间估计。当总体率P接近0.5,阳性数x较小时,可直接计算二项分布的累计概率进行单侧的假设检验。当P=0.5或n较大,nP及n(1-P)均大于等于5时,可用正态近似法进行样本率与总体率,两个样本率比较的u检验。
三、Poisson分布的概念及应用条件
P(0)=e-µ
P(x+1)=P(x)*µ/x+1, x=0,1,2,...
如某克山病区测得11例克山病患者和13名健康人的血磷值(mmol/L)如下,
患者:0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11
健康人:0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87
问该地克山病患者与健康人的血磷值是否不同?
从以上资料可以看出,24个患者与健康人的血磷值各不相同,如果用离均差平方和(SS)描述其围绕总均数的变异情况,则总变异有以下两个来源:
(1)组内变异,即由于随机误差的原因使得各组内部的血磷值各不相等;
(2)组间变异,即由于克山病的影响使得患者与健康人组的血磷值均数大小不等。
而且:SS总=SS组间+SS组内 v总=v组间+v组内
如果用均方(即自由度v去除离均差平方和的商)代替离均差平方和以消除各组样本数不同的影响,则方差分析就是用组内均方去除组间均方的商(即F值)与1相比较,若F值接近1,则说明各组均数间的差异没有统计学意义,若F值远大于1,则说明各组均数间的差异有统计学意义。实际应用中检验假设成立条件下F值大于特定值的概率可通过查阅F界值表(方差分析用)获得。
(1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。
(2)正态性,即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。
(3)方差齐性,即若组间方差不齐则不适用方差分析。多个方差的齐性检验可用Bartlett法,它用卡方值作为检验统计量,结果判断需查阅卡方界值表。
二、方差分析的主要内容
根据资料设计类型的不同,有以下两种方差分析的方法:
(1) 建立检验假设;
H0:多个样本总体均数相等。
H1:多个样本总体均数不相等或不全等。
检验水准为0.05。
(2) 计算检验统计量F值;
(3) 确定P值并作出推断结果。
三、多个样本均数的两两比较
经过方差分析若拒绝了检验假设,只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息,应在方差分析的基础上进行多个样本均数的两两比较。
建立检验假设-->样本均数排序-->计算q值-->查q界值表判断结果。
假设检验概述
假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
1.假设检验的基本思想
假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立。
2、假设检验的基本步骤
第一步:提出检验假设(又称无效假设)和备择假设。
H0:样本与总体或样本与样本间的差异是由抽样误差引起的。
H1:样本与总体或样本与样本间存在本质差异。
预先设定的检验水准为0.05。
第二步:选定统计方法,计算出统计量的大小。根据资料的类型和特点,可分别选用t检验,u检验,秩和检验和卡 方检验等。
第三步:根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P值小于预先设定的检验水准,则H0成立的可能性小,即拒绝H0,若P值不小于预先设定的检验水准,则H0成立的可能性还不小,还不能拒绝H0。P值的大小一般可通过查阅相应的界值表得到。
3、进行假设检验应注意的问题
(1)做假设检验之前,应注意资料本身是否有可比性。
(2)当差别有统计学意义时应注意这样的差别在实际应用中有无意义。
(3)根据资料类型和特点选用正确的假设检验方法。
(4)根据专业及经验确定是选用单侧检验还是双侧检验。
(5)当检验结果为拒绝无效假设时,应注意有发生I类错误的可能性,即错误地拒绝了本身成立的H0,发生这种错误的可能性预先是知道的,即检验水准那么大;当检验结果为不拒绝无效假设时,应注意有发生II类错误的可能性,即仍有可能错误地接受了本身就不成立的H0,发生这种错误的可能性预先是不知道的,但与样本含量和I类错误的大小有关系。
(6)判断结论时不能绝对化,应注意无论接受或拒绝检验假设,都有判断错误的可能性。
(7)报告结论时是应注意说明所用的统计量,检验的单双侧及P值的确切范围。
卡方检验是用途很广的一种假设检验方法,这里我们主要学习它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
一、卡方检验基本思想
在分类资料统计分析中我们常会遇到这样的资料,如两组大白鼠在不同致癌剂作用下的发癌率如下表,问两组发癌率有无差别?
处理 发癌数 未发癌数 合计 发癌率%
甲组 52 19 71 73.24
乙组 39 3 42 92.86
合计 91 22 113 80.33
52 19
39 3
是表中最基本的数据,因此上表资料又被称之为四格表资料。卡方检验的统计量是卡方值,它是每个格子实际频数A与理论频数T
差值平方与理论频数之比的累计和。每个格子中的理论频数T是在假定两组的发癌率相等(均等于两组合计的发癌率)的情况下计算出来的,如第一行第一列的理论频数为71*91/113=57.18,故卡方值越大,说明实际频数与理论频数的差别越明显,两组发癌率不同的可能性越大。
二、四格表资料的卡方检验
四格表资料的卡方检验用于进行两个率或两个构成比的比较。
- []专用公式:[/]
自由度v=(行数-1)(列数-1)
- []应用条件:[/]
三、行X列表资料的卡方检验
行X列表资料的卡方检验用于多个率或多个构成比的比较。
- []专用公式:[/]
- []应用条件:[/]
四、列联表资料的卡方检验:
同一组对象,观察每一个个体对两种分类方法的表现,结果构成双向交叉排列的统计表就是列联表。
- []RC 列联表的卡方检验:[/*]
- []22列联表的卡方检验:[/*]
列联表卡方检验应用中的注意事项同R*C表的卡方检验相同。
t检验和u检验
简而言之,t检验和u检验就是统计量为t,u的假设检验,两者均是常见的假设检验方法。当样本含量n较大时,样本均数符合正态分布,故可用u检验进行分析。当样本含量n小时,若观察值x符合正态分布,则用t检验(因此时样本均数符合t分布),当x为未知分布时应采用秩和检验。
一、样本均数与总体均数比较的t检验
样本均数与总体均数比较的t检验实际上是推断该样本来自的总体均数µ与已知的某一总体均数µ0(常为理论值或标准值) 有无差别。如根据大量调查,已知健康成年男性的脉搏均数为72次/分,某医生在一山区随即抽查了25名健康男性,求得其脉搏均数为74.2次/分,标准差为6.0次/分,问是否能据此认为该山区成年男性的脉搏均数高于一般成年男性。
上述两个均数不等既可能是抽样误差所致,也有可能真是环境差异的影响,为此,可用t检验进行判断,检验过程如下:
- []建立假设[/]
- []计算统计量[/]
- []确定概率,作出判断[/]
应注意的是,当样本含量n较大时,可用u检验代替t检验。
二、配对设计的t检验
配对设计是一种比较特殊的设计方式,能够很好地控制非实验因素对结果的影响,有自身配对和非自身配对之分。配对设计资料的t检验实际上是用配对差值与总体均数“0”进行比较,即推断差数的总体均数是否为“0”。故其检验过程与样本均数与总体均数比较的t检验类似,即:
- []建立假设[/]
- []计算统计量[/]
- []确定概率,作出判断[/]
三、成组设计两样本均数比较的t检验
成组设计两样本均数比较的t检验又称成组比较或完全随机设计的t检验,其目的是推断两个样本分别代表的总体均数是否相等。其检验过程与上述两种t检验也没有大的差别,只是假设的表达和t值的计算公式不同。
两样本均数比较的t检验,其假设一般为:H0:µ1=µ2,即两样本来自的总体均数相等,H1:µ1>µ2或µ1<µ2,即两样本来自的总体均数不相等,检验水准为0.05。
计算t统计量时是用两样本均数差值的绝对值除以两样本均数差值的标准误。
应注意的是当样本含量n较大时(如大于100时)可用u检验代替t检验,此时u值的计算公式较t值的计算公式要简单的多。
四、t检验的应用条件和注意事项
两个小样本均数比较的t检验有以下应用条件:
(1)两样本来自的总体均符合正态分布,
(2)两样本来自的总体方差齐。
故在进行两小样本均数比较的t检验之前,要用方差齐性检验来推断两样本代表的总体方差是否相等,方差齐性检验的方法使用F检验,其原理是看较大样本方差与较小样本方差的商是否接近“1”。若接近“1”,则可认为两样本代表的总体方差齐。判断两样本来自的总体是否符合正态分布,可用正态性检验的方法。
若两样本来自的总体方差不齐,也不符合正态分布,对符合对数正态分布的资料可用其几何均数进行t检验,对其他资料可用t’检验或秩和检验进行分析。
二项分布与柏松分布
一、二项分布的概念及应用条件
- []二项分布的概念: [/]
对一只小白鼠进行实验的结果为:死(概率为P)或生(概率为1-P)
对二只小白鼠(甲乙)进行实验的结果为:甲乙均死(概率为P2)、甲死乙生、乙死甲生或甲乙均生,概率相加得P2+P(1-P)+(1-P)P+(1-P)2=2
依此类推,对n只小白鼠进行实验,所有可能结果的概率相加得Pn+cn1P(1-P)n-1+...+cnxPx(1-P)n-x+...+(1-P)x=n 其中n为样本含量,即事件发生总数,x为某事件出现次数,cnxPx(1-P)n-x为二项式通式,cnx=n!/x!(n-x)!, P为总体率。
因此,二项分布是说明结果只有两种情况的n次实验中发生某种结果为x次的概率分布。其概率密度为:
P(x)=cnxPx(1-P)n-x, x=0,1,...n。
- []二项分布的应用条件:[/]
- []二项分布的累计概率 [/]
- []二项分布的图形[/]
- []二项分布的均数和标准差[/]
二项分布的标准差为np(1-p)的算术平方根,当用率表示时为p(1-p)的算术平方根。
二、二项分布的应用
二项分布主要用于符合二项分布分类资料的率的区间估计和假设检验。当P=0.5或n较大,nP及n(1-P)均大于等于5时,可用(p-u0.05sp,p+u0.05sp)对总体率进行95%的区间估计。当总体率P接近0.5,阳性数x较小时,可直接计算二项分布的累计概率进行单侧的假设检验。当P=0.5或n较大,nP及n(1-P)均大于等于5时,可用正态近似法进行样本率与总体率,两个样本率比较的u检验。
三、Poisson分布的概念及应用条件
- []Poisson分布的概念:[/]
- []Poisson分布的应用条件:[/]
- []Poisson分布的概率[/]
P(0)=e-µ
P(x+1)=P(x)*µ/x+1, x=0,1,2,...
- []Poisson分布的性质:[/] Poisson分布均数与方差相等;(2) Poisson分布均数µ较小时呈偏态,µ>=20时近似正态;(3) n很大, P很小,nP=µ为常数时二项分布趋近于Poisson分布;(4) n个独立的Poisson分布相加仍符合Poisson分布四、Poisson分布的应用 Poisson分布也主要用于符合Poisson分布分类资料率的区间估计和假设检验。当µ>=20时,根据正态近似的原理,可用(x-u0.05x的算术平方根,x+u0.05x的算术平方根)对总体均数进行95%的区间估计。同样,也可通过直接计算Poisson分布的累计概率进行单侧的假设检验,在符合正态近似条件时,也可用u检验进行样本率与总体率,两个样本率比较的假设检验。方差分析一、方差分析的基本思想[list=1][]方差分析的概念[/]
- []方差分析的基本思想[/]
如某克山病区测得11例克山病患者和13名健康人的血磷值(mmol/L)如下,
患者:0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11
健康人:0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87
问该地克山病患者与健康人的血磷值是否不同?
从以上资料可以看出,24个患者与健康人的血磷值各不相同,如果用离均差平方和(SS)描述其围绕总均数的变异情况,则总变异有以下两个来源:
(1)组内变异,即由于随机误差的原因使得各组内部的血磷值各不相等;
(2)组间变异,即由于克山病的影响使得患者与健康人组的血磷值均数大小不等。
而且:SS总=SS组间+SS组内 v总=v组间+v组内
如果用均方(即自由度v去除离均差平方和的商)代替离均差平方和以消除各组样本数不同的影响,则方差分析就是用组内均方去除组间均方的商(即F值)与1相比较,若F值接近1,则说明各组均数间的差异没有统计学意义,若F值远大于1,则说明各组均数间的差异有统计学意义。实际应用中检验假设成立条件下F值大于特定值的概率可通过查阅F界值表(方差分析用)获得。
- []方差分析的应用条件[/]
(1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。
(2)正态性,即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。
(3)方差齐性,即若组间方差不齐则不适用方差分析。多个方差的齐性检验可用Bartlett法,它用卡方值作为检验统计量,结果判断需查阅卡方界值表。
二、方差分析的主要内容
根据资料设计类型的不同,有以下两种方差分析的方法:
- []对成组设计的多个样本均数比较,应采用完全随机设计的方差分析,即单因素方差分析。[/][]对随机区组设计的多个样本均数比较,应采用配伍组设计的方差分析,即两因素方差分析。[/]
(1) 建立检验假设;
H0:多个样本总体均数相等。
H1:多个样本总体均数不相等或不全等。
检验水准为0.05。
(2) 计算检验统计量F值;
(3) 确定P值并作出推断结果。
三、多个样本均数的两两比较
经过方差分析若拒绝了检验假设,只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息,应在方差分析的基础上进行多个样本均数的两两比较。
- []多个样本均数间两两比较[/]
建立检验假设-->样本均数排序-->计算q值-->查q界值表判断结果。
- []多个实验组与一个对照组均数间两两比较[/]
假设检验概述
假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
1.假设检验的基本思想
假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立。
2、假设检验的基本步骤
第一步:提出检验假设(又称无效假设)和备择假设。
H0:样本与总体或样本与样本间的差异是由抽样误差引起的。
H1:样本与总体或样本与样本间存在本质差异。
预先设定的检验水准为0.05。
第二步:选定统计方法,计算出统计量的大小。根据资料的类型和特点,可分别选用t检验,u检验,秩和检验和卡 方检验等。
第三步:根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P值小于预先设定的检验水准,则H0成立的可能性小,即拒绝H0,若P值不小于预先设定的检验水准,则H0成立的可能性还不小,还不能拒绝H0。P值的大小一般可通过查阅相应的界值表得到。
3、进行假设检验应注意的问题
(1)做假设检验之前,应注意资料本身是否有可比性。
(2)当差别有统计学意义时应注意这样的差别在实际应用中有无意义。
(3)根据资料类型和特点选用正确的假设检验方法。
(4)根据专业及经验确定是选用单侧检验还是双侧检验。
(5)当检验结果为拒绝无效假设时,应注意有发生I类错误的可能性,即错误地拒绝了本身成立的H0,发生这种错误的可能性预先是知道的,即检验水准那么大;当检验结果为不拒绝无效假设时,应注意有发生II类错误的可能性,即仍有可能错误地接受了本身就不成立的H0,发生这种错误的可能性预先是不知道的,但与样本含量和I类错误的大小有关系。
(6)判断结论时不能绝对化,应注意无论接受或拒绝检验假设,都有判断错误的可能性。
(7)报告结论时是应注意说明所用的统计量,检验的单双侧及P值的确切范围。
没有找到相关结果
已邀请:
3 个回复
honesty (威望:4) (上海 ) 汽车制造相关 经理 - I love this game I love ...
赞同来自:
要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,当样本含量小于40时只能用确切概率法计算概率。
这个每个格子的理论频数不应小于5,是什么含义?具体是哪个格子,一直没有搞清楚这个问题,英文中用Note that there are two of six cells with expected counts less than five.