自由度讲解
在论坛或者网上看到很多对自由度的解释,现总结如下.
希望帮助大家学习
欢迎探讨).
以下解释摘自百度
自由度,很多统计量的计算公式中都有自由度的概念,可为什么同样是计算标准差,总体标准差的自由度是n,而样本标准差的自由度就是n-1?为什么其它公式中的自由度还有n-2、n-3呢? 它到底是什么含意?
??翻看了以前的教材以及到网上查阅了大量相关资料,原来,不仅仅是统计学里有自由度的概念呀!下面把有关自由度的问题点简要归纳一下。
??理论力学:确定物体的位置所需要的独立坐标数称作物体的自由度,当物体受到某些限制时——自由度减少。一个质点在空间自由运动,它的位置由三个独立坐标就可以确定,所以质点的运动有三个自由度。假如将质点限制在一个平面或一个曲面上运动,它有两个自由度。假如将质点限制在一条直线或一条曲线上运动,它只有一个自由度。刚体在空间的运动既有平动也有转动,其自由度有六个,即三个平动自由度x、y、z和三个转动自由度a、b、q。如果刚体运动存在某些限制条件,自由度会相应减少。
??热力学中:分子运动自由度就是决定一个分子在空间的位置所需要的独立坐标数目。
??统计学中:在统计模型中,自由度指样本中可以自由变动的变量的个数,当有约束条件时,自由度减少自由度计算公式:自由度=样本个数-样本数据受约束条件的个数,即df = n - k(df自由度,n样本个数,k约束条件个数)
??我们当然最关心的还是统计学里面的自由度的概念。这里自由度的概念是怎么来的呢?据说:
??一般总体方差(sigma^2),其实它是衡量所有数据对于中心位置(总体平均)平均差异的概念,所以也称为离散程度,通常表示为sum(Xi-Xbar)^1/2/N ,(有多少个数据就除多少)而样本方差(S^2),则是利用样本数据所计算出来估计总体变异用的(样本统计量的基本目的:少量资料估计总体).一般习惯上,总体怎么算,样本就怎么算,可是在统计上估计量(或叫样本统计量)必须符合一个特性--无偏性,也就是估计量的数学期望值要等于被估计的总体参数=> E(S^2)=sigma^2(无偏估计)。很不幸的,样本变异数E(S^2)并不会等于sigma^2所以必须做修正,而修正后即为sum(Xi-Xbar)^2/(N-1).才会继续带出后来的自由度概念。(自由度是由修正样本统计量得来的吗?)
??网上一些文献的说法也是林林总总。
??金志成实验设计书中的定义:能独立变化的数据数目。只要有n-1个数确定,第n个值就确定了,它不能自由变化。所以自由度就是n-1。自由度表示的是一组数据可以自由表化的数量的多少。
??通俗点说,一个班上有50个人,我们知道他们语文成绩平均分为80,现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来了,自由度少一个了。
??自由度的设定是出于这样一个理由:在总体平均数未知时,用样本平均数去计算离差(常用小s)会受到一个限制————要计算标准差(小s)就必须先知道样本平均数,而样本平均数和n都知道的情况下,数据的总和就是一个常数了。所以,“最后一个”样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。至于有的自由度是n-2什么的,都是同样道理。
??n-1是通常的计算方法,更准确的讲应该是n-k,n表示“处理”的数量,k表示实际需要计算的参数的数量。如需要计算2个参数,则数据里只有n-2个数据可以自由变化。例如,一组数据,平均数一定,则这组数据有n-1个数据可以自由变化;如一组数据平均数一定,标准差也一定,则有n-2个数据可以自由变化。df=n-k的得出是需要大量的数理统计的证明的。太复杂的情况,我们就不讨论了。
另 http://www.cos.name/bbs/simple ... .html
对卡方分布,t分布而言,从其统计量的来源看,卡方分布自由度n理解为来自n个服从正态分布的样本,而且他们之间并没有什么约束关系,也就是说n个样本都是可以自由变化的。
而对于我们在统计检验中构造的那些统计量而言,也可以这样理解,一般自由度并不为n,是因为这n个样本之间有约束关系,约束方程的个数为a,则自由度为n-a,因为一般约束方程的个数等于未知参数的个数,也就是说自由度是n-未知参数的个数,但是这种解释在有些场合不容易理解,也没有说到本质上,严格的解释应该还是从统计量对应的二次型的秩的角度来理解。
参见南开大学王兆军 数理统计讲义 2006
或几篇论文:
1、刘丽君,数理统计中的“自由度”及教材中一处证明的订正,温州师范学院学报(自然科学版),vol24,5,2003。
2、张宏广,自由度的求法,承德民族师专学报,第26 卷第2 期,2006。
3、曲卫彬,浅谈“自由度”,高校教育。
希望帮助大家学习
欢迎探讨).
以下解释摘自百度
自由度,很多统计量的计算公式中都有自由度的概念,可为什么同样是计算标准差,总体标准差的自由度是n,而样本标准差的自由度就是n-1?为什么其它公式中的自由度还有n-2、n-3呢? 它到底是什么含意?
??翻看了以前的教材以及到网上查阅了大量相关资料,原来,不仅仅是统计学里有自由度的概念呀!下面把有关自由度的问题点简要归纳一下。
??理论力学:确定物体的位置所需要的独立坐标数称作物体的自由度,当物体受到某些限制时——自由度减少。一个质点在空间自由运动,它的位置由三个独立坐标就可以确定,所以质点的运动有三个自由度。假如将质点限制在一个平面或一个曲面上运动,它有两个自由度。假如将质点限制在一条直线或一条曲线上运动,它只有一个自由度。刚体在空间的运动既有平动也有转动,其自由度有六个,即三个平动自由度x、y、z和三个转动自由度a、b、q。如果刚体运动存在某些限制条件,自由度会相应减少。
??热力学中:分子运动自由度就是决定一个分子在空间的位置所需要的独立坐标数目。
??统计学中:在统计模型中,自由度指样本中可以自由变动的变量的个数,当有约束条件时,自由度减少自由度计算公式:自由度=样本个数-样本数据受约束条件的个数,即df = n - k(df自由度,n样本个数,k约束条件个数)
??我们当然最关心的还是统计学里面的自由度的概念。这里自由度的概念是怎么来的呢?据说:
??一般总体方差(sigma^2),其实它是衡量所有数据对于中心位置(总体平均)平均差异的概念,所以也称为离散程度,通常表示为sum(Xi-Xbar)^1/2/N ,(有多少个数据就除多少)而样本方差(S^2),则是利用样本数据所计算出来估计总体变异用的(样本统计量的基本目的:少量资料估计总体).一般习惯上,总体怎么算,样本就怎么算,可是在统计上估计量(或叫样本统计量)必须符合一个特性--无偏性,也就是估计量的数学期望值要等于被估计的总体参数=> E(S^2)=sigma^2(无偏估计)。很不幸的,样本变异数E(S^2)并不会等于sigma^2所以必须做修正,而修正后即为sum(Xi-Xbar)^2/(N-1).才会继续带出后来的自由度概念。(自由度是由修正样本统计量得来的吗?)
??网上一些文献的说法也是林林总总。
??金志成实验设计书中的定义:能独立变化的数据数目。只要有n-1个数确定,第n个值就确定了,它不能自由变化。所以自由度就是n-1。自由度表示的是一组数据可以自由表化的数量的多少。
??通俗点说,一个班上有50个人,我们知道他们语文成绩平均分为80,现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来了,自由度少一个了。
??自由度的设定是出于这样一个理由:在总体平均数未知时,用样本平均数去计算离差(常用小s)会受到一个限制————要计算标准差(小s)就必须先知道样本平均数,而样本平均数和n都知道的情况下,数据的总和就是一个常数了。所以,“最后一个”样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。至于有的自由度是n-2什么的,都是同样道理。
??n-1是通常的计算方法,更准确的讲应该是n-k,n表示“处理”的数量,k表示实际需要计算的参数的数量。如需要计算2个参数,则数据里只有n-2个数据可以自由变化。例如,一组数据,平均数一定,则这组数据有n-1个数据可以自由变化;如一组数据平均数一定,标准差也一定,则有n-2个数据可以自由变化。df=n-k的得出是需要大量的数理统计的证明的。太复杂的情况,我们就不讨论了。
另 http://www.cos.name/bbs/simple ... .html
对卡方分布,t分布而言,从其统计量的来源看,卡方分布自由度n理解为来自n个服从正态分布的样本,而且他们之间并没有什么约束关系,也就是说n个样本都是可以自由变化的。
而对于我们在统计检验中构造的那些统计量而言,也可以这样理解,一般自由度并不为n,是因为这n个样本之间有约束关系,约束方程的个数为a,则自由度为n-a,因为一般约束方程的个数等于未知参数的个数,也就是说自由度是n-未知参数的个数,但是这种解释在有些场合不容易理解,也没有说到本质上,严格的解释应该还是从统计量对应的二次型的秩的角度来理解。
参见南开大学王兆军 数理统计讲义 2006
或几篇论文:
1、刘丽君,数理统计中的“自由度”及教材中一处证明的订正,温州师范学院学报(自然科学版),vol24,5,2003。
2、张宏广,自由度的求法,承德民族师专学报,第26 卷第2 期,2006。
3、曲卫彬,浅谈“自由度”,高校教育。
没有找到相关结果
已邀请:
14 个回复
michael.lee (威望:0) (江苏 苏州) 汽车制造相关 经理
赞同来自: fengjunzheng
李文华
内容提要:
本文探讨了如下几个相关的问题:什么是“自由度”?怎样计算“自由度”?“自由度”对于统计学有什么作用?
关键词: 自由度 抽样分布 假设检验
Abstract: Three issues that are correlative have been discussed in this article. These issues are: What is degree of freedom? How to calculate degree of freedom? What is the significance of degree of freedom to statistics?
Key words: Degree of freedom; Sample distribution; Hypothesis test
在统计学中,有一个很难理解的概念 ──“自由度” (degree of freedom)。这里,笔者就如下几个相关的问题发表一些不成熟的意见,请教方家。
一、什么是“自由度”?
“自由度”是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数。这个定义可以从如下几个方面来理解:
第一,“统计量”(如样本数据的平均数X、样本数据的标准差)是研究者通过调查样本的数据人为地计算出来的,而“参数”(如总体均值μ、总体标准差δ)是被调查的总体所客观存在的,这是两者的区别。在统计学的理论层面上,要求或者假定统计量是参数的无偏估计,认为二者是相等的(在实际研究中,由于抽样的偏差,可能导致两者不相等,但对于这种情况,研究者是无法知道的,知道就没有抽样调查的必要了)。在理论假设下,统计量也就和参数一样被看作是客观的、确定的。
第二,既然在理论上统计量被要求是确定的,那么在实际层面上,计算统计量的那组数据就不是完全自由的。这一点很重要,因为“自由度”中“自由”的含义就是相对这个“确定”条件而言的。正是统计量的这种“确定性”限制了与之相关的一组数据的“自由度”,也就是说,一组数据不是可以完全自由取值的,它必须支持“统计量与总体参数相等”的理论假设。这就是“自由度”存在的理由。
有必要举例来进一步说明“独立或能自由变化的数据”的含义。在心理、社会等领域的测量或者调查过程中,研究者设置了一些变量(如智商、收入等),这些变量是随机变量。所谓随机变量是指,在调查总体中,变量的取值范围及其所对应的频次(两者合起来称为变量的分布)是确定的,但在一次具体的抽样调查中,变量的取值及其所对应的频次则是不确定的,但在大样本的抽样调查中,变量的分布又是能体现总体的特征和规律的。
例1:研究者调查某个城市在岗职女工的平均收入,从总体40000万人中,研究者随机抽取了200人进行调查。在这个例子中,总体40000个在岗女工的收入的平均数是总体参数,是客观的、确定的,尽管研究者不知道。通过随机抽样和问卷调查,研究者获得了200人的收入的数据。运用这组数据可以算出样本的平均数,它是统计量。由于在理论上要求统计量与参数相等,所以这200
1
个数据中只有199个数据可以“自由”变动,所以,这组数据在求平均数这个统计量时的自由度就是:K=200-1=199。
第三,在上面的例子中,研究者只抽了一个200人的样本,而在实际层面,这200人的收入是确定的,因为每个被调查者只有一个确定的收入。既然这样,“199个数据可以自由变动”是什么意思呢?
这需要回到理论上去回答。在理论上,从20000人中随机抽取200人有种抽取方法,也就是说,在理论上研究者可以得到个不同的、样本容量均为200人的样本,这个数据量是很大的(没有必要确切知道它的值)。这样,在理论上就存在很多组调查数据(虽然研究者确实只调查了一个200人的样本,也只获得了一组数据),每组都有200个数据。每组数据在理论上都有对应的统计量(如平均数20020000c20020000cX),正是这些统计量的分布,构成了统计学中所说的抽样分布,它是基础统计学的核心内容。所以,仅仅在理论上,这200个数据中的199个数据是可以随不同样本而变化的、自由的。当然,话说回来,这种自由并非是绝对的,它们也只能在总体的取值范围内变动,例如,关于“收入”这个变量的取值就不可能为负值。
第四,“自由度”是谁的?从前面的分析中可以知道,“自由度”产生于这样的背景下:运用一组数据来求“统计量”。离开“一组数据”就不可能有“统计量”,不计算“统计量”,“一组数据”就失去了科学的价值。所以,“自由度”应该是“统计量”和“一组数据”所共同拥有的。当然,为了方便,我们说“统计量的自由度”或者“一组数据的自由度”也都是可以接受的。
二、如何计算“自由度”? 自由度的大小与计算统计量时的确定条件的数目成反比,计算某个统计量的自由度,原则上是用数据的个数减去“确定”条件的个数。但说起来容易算起来
难。
常见的统计量有平均数X、样本标准差、 值、(卡方)值、F值等,它们分别服从一定自由度的t分布、x分布、F分布(如果某个统计量服从正态分布,可以不考虑自由度对于分布曲线的影响)。在计算这些统计量时,被确定的条件数目是不一样的,所以它们的自由度也是不一样的。这样,自由度的计算就是一个非常复杂的问题。 St2x2
鉴此,笔者举例说明如下。
例2:某乡镇研究职业代际流动。调查了共140人。结果如下列联表:
父辈职业
子辈职业
脑力
体力
农业
边缘和
劳力
20
5
5
30
体力
10
30
10
50
农业
5
5
50
60
边缘和
35
40
65
N=140
问:子辈职业是否与父辈职业有关?(α=0.05)
这是一个假设检验的问题,被检验的统计量是值。 2x
2
在以上列联表中,总的数据个数为9(不能和样本容量相混淆),运用这9个数据计算值需要先求出6个“边缘和”,其中有5个“边缘和”是确定的(其中有1个边缘和是重复的,读者可以仔细检验一下)。“边缘和”本身就是统计量,是确定的条件。所以用这9个数据来计算值时,它的自由度为K=4(9-5=4)。 2x2x
三、“自由度”在统计学中的作用
“自由度”对于整个统计学而言是一个很重要的概念,它在抽样分布和假设检验中的作用尤其突出。关于这一点,简单的理由就是:
1、假设检验是通过检验一个统计量的显著性程度来确定变量之间的关系,而判断是否显著需要有一定的标准。
2、是否显著的标准与计算所得的统计量的值、分布类型以及给出的显著性水平(通常为0.05、0.01)是相关联的。
3、自由度虽然不影响统计量的值及其分布的类型,但它影响分布图形的形状,即一定统计量值的范围内分布曲线下的面积。这就影响了在给定的显著性水平下,达到显著所需要的统计量的临界值。
例3:在例2中,可以算得统计量=86.22; 2x
查分布表,临界值, 2x20.05(4)9.48Kx== 8
因为=86.229.448, 2x>
所以认为:子辈职业与父辈职业是有关系的。
从这个例子中,明显可以看出,统计量的自由度和检验该统计量是否显著的临界值之间的对应关系,从而反映了它在假设检验中的重要作用。
主要参考文献:
卢淑华.社会统计学 .北京:北京大学出版社,2001:202-203。
卢淑华.社会统计学 .北京:北京大学出版社,2001:308-310。
作者简介:
李文华 ,男,1969年9月出生于湖南岳阳,博士、教授, 广西师范大学 广西 桂林 541004
基金来源:
1、国家社会科学基金(04XSH003):广西不同民族职业流动与就业培训政策的比较研究;
2、广西“人文强桂”工程课题(桂财教111号):马克思主义少数民族理论创与当代广西社会发展研究.
联系方式: wenhualee@vip.sina.com
文章来源:作者投稿
中国社会学网 www.sociology.cass.cn