样本量大于30就可以认为是正态分布吗?你可能对中心极限定理有误区!
我经常会被问到这么一个问题:样本量多大就不用进行正态性检验了。殊不知,这问题的本身就是错误的,并不是样本大,就一定要服从正态分布。我们可以轻易举出一个反例来说明这个问题。比方说就用1-1000这一千个(甚至更多)自然数,组成一个样本,那么这个样本的分布就不是正态分布,因为1-1000服从的是均匀分布。另外,数据的分布基于形成的机理,有的分布天生就非正态(如寿命数据)。
但有些朋友,并不觉得这是一个错误的问题,甚至在他们的学习中还流传着这么一个说法:样本量大于30就可以认为是服从正态分布。当你向他问为什么的时候,会得到一个专业的解释——中心极限定理。
中心极限定理
中心极限定理(Central Limit Theorem)是统计学中最重要的结论之一。在这里,我并不想给出中心极限定理专业的定义,只需要了解它告诉我们:来自某总体的一个样本,无论该总体服从什么分布,只要样本容量足够大,其样本均值都近似服从正态分布。
请注意这里的说法:“样本均值“近似正态,而不是样本本身服从正态(不是说你抽了30个样品组成的样本数据就正态)。这里又有一个大家疑惑的地方,样本容量足够大,多大才是足够大?这个问题的答案和总体分布的形状相关,如果样本本是来自近似对称分布的总体,那么当样本量取相当小(如样本量取5)的值的时候,正态逼近的结果也会非常好。然后,如果总体的分布严重倾斜,则样本量必须取相当大的值。根据检验,对于大多数总体来说,样本容量取30或者更大,就足以得到令人满意的正态逼近结果。我想这可能就是错误认为样本量大于30就认为是正态分布的出处了。
模拟掷骰子展示中心极限定理
为了展示中心极限定理,模拟多次投掷骰子来说明。
假设您掷骰子 1000 次。您希望得到相等数目的 1、2 等。让我们查看 1000 次骰子的分布(图1)。
现在假设您将投掷 2 次,并采用两次投掷的平均值。您还将重复此试验 1000 次。让我们来看看两次投掷的平均值的分布。这种分布如图 2 所示。您是否注意到在只进行了两次投掷的情况下,平均值的分布已经呈现出了土堆形?
假设您现在投掷骰子三次,然后取三次投掷的平均值。再次重复此试验 1000 次。让我们来看看此举对投掷的平均值分布有何影响。这种分布如图 3 所示。同样,分布的形状与正态分布的形状相当接近。您是否注意到分布上发生了其他变化?
让我们投掷骰子五次,并取其平均值。再次重复此试验 1000 次。这种分布如图 4 所示。您是否已开始注意到所发生的情形中存在任何模式?
让我们继续增加平均投掷次数。此时您将投掷 10 次,并采用 10 次投掷的平均值。这种分布如图 5 所示。
现在,随着您增加投掷次数,将看到两个现象。首先,您会看到,平均分布的形状开始与正态分布的形状相似。其次,您会看到,随着投掷次数的增加,分布变得越来越窄。让我们继续增加投掷次数。此时,您将投掷骰子 20 次。这种分布如图 6 所示。
到现在,您应该确信增大样本数量对样本平均值分布是有影响的。您将再次增大样本数量,以强化这种认知。此时,您将投掷骰子 30 次。这种分布如图 7 所示。
让我们看看所呈现的情况,在一个图中绘制大小为 2、5、10、20、30 的样本的直方图,以查看变化的分布。
从上面的模拟结果,可以知道,当样本量大于30的时候,那么样本均值(取了1000次样本,得到1000个均值)的分布基本呈正态分布。
另外该定理还指出,如果根据总体不断重复绘制随机样本数量 n 以及有限均值 mu(y) 和标准差 sigma(y),然后在 n 较大时,样本均值的分布将近似呈正态分布,并且均值等于 mu(y),标准差等于 (sigma(y))/sqrt(n)。
但有些朋友,并不觉得这是一个错误的问题,甚至在他们的学习中还流传着这么一个说法:样本量大于30就可以认为是服从正态分布。当你向他问为什么的时候,会得到一个专业的解释——中心极限定理。
中心极限定理
中心极限定理(Central Limit Theorem)是统计学中最重要的结论之一。在这里,我并不想给出中心极限定理专业的定义,只需要了解它告诉我们:来自某总体的一个样本,无论该总体服从什么分布,只要样本容量足够大,其样本均值都近似服从正态分布。
请注意这里的说法:“样本均值“近似正态,而不是样本本身服从正态(不是说你抽了30个样品组成的样本数据就正态)。这里又有一个大家疑惑的地方,样本容量足够大,多大才是足够大?这个问题的答案和总体分布的形状相关,如果样本本是来自近似对称分布的总体,那么当样本量取相当小(如样本量取5)的值的时候,正态逼近的结果也会非常好。然后,如果总体的分布严重倾斜,则样本量必须取相当大的值。根据检验,对于大多数总体来说,样本容量取30或者更大,就足以得到令人满意的正态逼近结果。我想这可能就是错误认为样本量大于30就认为是正态分布的出处了。
模拟掷骰子展示中心极限定理
为了展示中心极限定理,模拟多次投掷骰子来说明。
假设您掷骰子 1000 次。您希望得到相等数目的 1、2 等。让我们查看 1000 次骰子的分布(图1)。
现在假设您将投掷 2 次,并采用两次投掷的平均值。您还将重复此试验 1000 次。让我们来看看两次投掷的平均值的分布。这种分布如图 2 所示。您是否注意到在只进行了两次投掷的情况下,平均值的分布已经呈现出了土堆形?
假设您现在投掷骰子三次,然后取三次投掷的平均值。再次重复此试验 1000 次。让我们来看看此举对投掷的平均值分布有何影响。这种分布如图 3 所示。同样,分布的形状与正态分布的形状相当接近。您是否注意到分布上发生了其他变化?
让我们投掷骰子五次,并取其平均值。再次重复此试验 1000 次。这种分布如图 4 所示。您是否已开始注意到所发生的情形中存在任何模式?
让我们继续增加平均投掷次数。此时您将投掷 10 次,并采用 10 次投掷的平均值。这种分布如图 5 所示。
现在,随着您增加投掷次数,将看到两个现象。首先,您会看到,平均分布的形状开始与正态分布的形状相似。其次,您会看到,随着投掷次数的增加,分布变得越来越窄。让我们继续增加投掷次数。此时,您将投掷骰子 20 次。这种分布如图 6 所示。
到现在,您应该确信增大样本数量对样本平均值分布是有影响的。您将再次增大样本数量,以强化这种认知。此时,您将投掷骰子 30 次。这种分布如图 7 所示。
让我们看看所呈现的情况,在一个图中绘制大小为 2、5、10、20、30 的样本的直方图,以查看变化的分布。
从上面的模拟结果,可以知道,当样本量大于30的时候,那么样本均值(取了1000次样本,得到1000个均值)的分布基本呈正态分布。
另外该定理还指出,如果根据总体不断重复绘制随机样本数量 n 以及有限均值 mu(y) 和标准差 sigma(y),然后在 n 较大时,样本均值的分布将近似呈正态分布,并且均值等于 mu(y),标准差等于 (sigma(y))/sqrt(n)。