关于sigma和s
s和s都是指标准差, 但s是母体标准差, s是样本标准差.因为母体本身很大,我们想了解一个母体参数, 会采用抽样的方法, 先了解样本的统计量, 再去推测母体参数.因为母体标准差s只是理论上存在, 但我们无法知道, 所以我们会抽样, 从而得出样本标准差s.
从计算上看, s和s是有差异的.从哪里开始说呢? 说远一点吧, 统计分为描述统计/推断统计(上面说的推测)/实验设计.其中描述统计中用来描述一组数据最基本的方式是数据的集中状况, 这里有六种方式, 包括平均数/中位数/众数/调和平均数/加权平均数/几何平均数, 其中前三种用的多, 后三种用的少, 前三种中平均数和中位数性质最好.在大多数情况下, 平均数的性质是最好的(所以我们平时大部分用的是平均数),只有一种情况中位数的性质比较好, 比如1,2,3,4,5的平均数和中位数都是3, 又有一组数据是1,2,3,4,90,这组数据明显看出90是异常数, 平均数就会受到干扰(是25),中位数就不会(还是3).但总体来说,我们还是用平均数,它的进一步运算功能比中位数方便得多.
但描述一组数据, 只用集中状况是不够的,比如说1,3,5,7,9和3,4,5,6,7平均数和中位数都是一样的,但明显不同, 这说明描述数据还需要加上一个数据的离散状况.描述数据离散状况有一种大家都能接受的方法是用Xi-Xbar,然后加总,即åXi-Xbar,但可悲的是, åXi-Xbar=0(为什么?).统计上为了解决这个问题,就用(Xi-Xbar)^2的方法,这种方法算出的一定是非负数, 就不会正负抵消,然后再加总, 就是å (Xi-Xbar)^2.新的问题来了,我比较两组数据的离散状况,如果数据个数不同,显然不够公平,就需要除以数据个数(这里有自由度的思想),然后就有一个式子å (Xi-Xbar)^2/N,我们把它叫方差.既然计算过程中平方过一次,那应该开平方,就是√å (Xi-Xbar)^2/N, 我们把它叫标准差,也就是母体标准差s.回到抽样,我们不可能知道真正的母体标准差,那应该有一个样本标准差,为了方便区分, 样本标准差叫s, 表达式是√å (Xi-Xbar)^2/(n-1),为什么分母变成了n-1,因为分母实际上是自由度. 自由度的定义是,若式子包含有 n 个独立的随机变量,和由它们所构成的 k 个样本统计量,则这个表达式的自由度为 n-k.这里的样本统计量只有一个,所以分母是n-1.
…在Excel中,计算样本标准差s用Stdev, 计算母体标准差s用Stdevp.
从计算上看, s和s是有差异的.从哪里开始说呢? 说远一点吧, 统计分为描述统计/推断统计(上面说的推测)/实验设计.其中描述统计中用来描述一组数据最基本的方式是数据的集中状况, 这里有六种方式, 包括平均数/中位数/众数/调和平均数/加权平均数/几何平均数, 其中前三种用的多, 后三种用的少, 前三种中平均数和中位数性质最好.在大多数情况下, 平均数的性质是最好的(所以我们平时大部分用的是平均数),只有一种情况中位数的性质比较好, 比如1,2,3,4,5的平均数和中位数都是3, 又有一组数据是1,2,3,4,90,这组数据明显看出90是异常数, 平均数就会受到干扰(是25),中位数就不会(还是3).但总体来说,我们还是用平均数,它的进一步运算功能比中位数方便得多.
但描述一组数据, 只用集中状况是不够的,比如说1,3,5,7,9和3,4,5,6,7平均数和中位数都是一样的,但明显不同, 这说明描述数据还需要加上一个数据的离散状况.描述数据离散状况有一种大家都能接受的方法是用Xi-Xbar,然后加总,即åXi-Xbar,但可悲的是, åXi-Xbar=0(为什么?).统计上为了解决这个问题,就用(Xi-Xbar)^2的方法,这种方法算出的一定是非负数, 就不会正负抵消,然后再加总, 就是å (Xi-Xbar)^2.新的问题来了,我比较两组数据的离散状况,如果数据个数不同,显然不够公平,就需要除以数据个数(这里有自由度的思想),然后就有一个式子å (Xi-Xbar)^2/N,我们把它叫方差.既然计算过程中平方过一次,那应该开平方,就是√å (Xi-Xbar)^2/N, 我们把它叫标准差,也就是母体标准差s.回到抽样,我们不可能知道真正的母体标准差,那应该有一个样本标准差,为了方便区分, 样本标准差叫s, 表达式是√å (Xi-Xbar)^2/(n-1),为什么分母变成了n-1,因为分母实际上是自由度. 自由度的定义是,若式子包含有 n 个独立的随机变量,和由它们所构成的 k 个样本统计量,则这个表达式的自由度为 n-k.这里的样本统计量只有一个,所以分母是n-1.
…在Excel中,计算样本标准差s用Stdev, 计算母体标准差s用Stdevp.