[推荐]麻烦的统计学
M:吉斯莫先生有一个小工厂,生产超级小玩意儿。
M:管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。工厂经营得很顺利,现在需要一个新工人。
M:现在吉斯莫先生正在接见萨姆,谈工作问题。
吉斯莫:我们这里报酬不错。平均薪金是每周300元。你在学徒期间每周得75元,不过很快就可以加工资。
M:萨姆工作了几天之后,要求见厂长。
萨姆;你欺骗我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。平均工资怎么可能是一周300元呢?
吉斯莫:啊,萨姆,不要激动。平均工资是300元。我要向你证明这一点。
吉斯莫:这是我每周付出的酬金。我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。总共是每周6900元,付给23个人,对吧?
萨姆:对,对,对!你是对的,平均工资是每周300元。可你还是蒙骗了我。
吉斯莫;我不同意!你实在是不明白。我已经把工资列了个表,并告诉了你,工资的中位数是200元,可这不是平均工资,而是中等工资。
萨姆:每周100元又是怎么回事呢?
吉斯莫:那称为众数,是大多数人挣的工资。
吉斯莫:老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。
萨姆:好,现在我可懂了。我……我辞职!
统计学的解说可能是极富逆论性的,常常被完全误解。关于吉斯莫工厂的故事揭示出,误解产生的一个共同根源是不了解平均数、中位数(中值)和众数之间的差别。
“平均”这个词往往是“算术平均值”的简称。这是一个很有用的统计学的度量指标。然而,如果有少数几个很大的数,如吉斯莫的工厂中少数高薪者,“平均”工资就会给人错误的印象。
读者还可考虑一些类似的引起误解的例子。譬如,报纸上报道有个人在一条河中淹死了,这条河的平均深度仅只2尺。这不使人吃惊吗?不!你要知道,这个人是在一个10多尺深的陷坑处沉下去的。
一个公司可能报告说它的策略是由股东们民主制订的,因为它的50个股东共有600张选票,平均每人12票。可是,如果其中45个股东每人只有4票,而另外5人每人有84张选票,平均数确实是每人12票,可是只有那5个人才完全控制了这个公司。
还有一个例子:为了吸引零售商到一个城里来,商会吹嘘道:这个城市每个国民的平均收入非常高。大多数人看到这个就以为这个城的大多数市民都属于高收入阶层。可是,如果有一个亿万富翁恰好住在该城,其他人就可能都是低收入的,而平均个人收入却仍然很高。
统计学的报告有时甚至更加使人糊涂,这因为有时“平均”这个词不是指算术平均值,而是指中值或众数。中值(中位数)是按大小顺序排列的数值表中中心位置对应的数值。如果表中数值有奇数项,则中值就简单地是中间项的值。如果有偶数项,中值往往取中间两项的算术平均值。
中值对萨姆来说比算术平均值重要,但就是中值也使人对这个工厂的工资情况得出歪曲了的印象。萨姆反正要知道的是“众数”——表中段常出现的数。在这里,众数是发给工厂中数目最多的人的工资数。有时候这叫做典型情况,因为它比其他任何情况出现次数都多。在上面最后一个例子中,那个城里一个典型家庭代表收入为众数的家庭,它也许很穷,但由于有少数亿万富翁,这个城的平均收入也还非常高。
M:管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。工厂经营得很顺利,现在需要一个新工人。
M:现在吉斯莫先生正在接见萨姆,谈工作问题。
吉斯莫:我们这里报酬不错。平均薪金是每周300元。你在学徒期间每周得75元,不过很快就可以加工资。
M:萨姆工作了几天之后,要求见厂长。
萨姆;你欺骗我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。平均工资怎么可能是一周300元呢?
吉斯莫:啊,萨姆,不要激动。平均工资是300元。我要向你证明这一点。
吉斯莫:这是我每周付出的酬金。我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。总共是每周6900元,付给23个人,对吧?
萨姆:对,对,对!你是对的,平均工资是每周300元。可你还是蒙骗了我。
吉斯莫;我不同意!你实在是不明白。我已经把工资列了个表,并告诉了你,工资的中位数是200元,可这不是平均工资,而是中等工资。
萨姆:每周100元又是怎么回事呢?
吉斯莫:那称为众数,是大多数人挣的工资。
吉斯莫:老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。
萨姆:好,现在我可懂了。我……我辞职!
统计学的解说可能是极富逆论性的,常常被完全误解。关于吉斯莫工厂的故事揭示出,误解产生的一个共同根源是不了解平均数、中位数(中值)和众数之间的差别。
“平均”这个词往往是“算术平均值”的简称。这是一个很有用的统计学的度量指标。然而,如果有少数几个很大的数,如吉斯莫的工厂中少数高薪者,“平均”工资就会给人错误的印象。
读者还可考虑一些类似的引起误解的例子。譬如,报纸上报道有个人在一条河中淹死了,这条河的平均深度仅只2尺。这不使人吃惊吗?不!你要知道,这个人是在一个10多尺深的陷坑处沉下去的。
一个公司可能报告说它的策略是由股东们民主制订的,因为它的50个股东共有600张选票,平均每人12票。可是,如果其中45个股东每人只有4票,而另外5人每人有84张选票,平均数确实是每人12票,可是只有那5个人才完全控制了这个公司。
还有一个例子:为了吸引零售商到一个城里来,商会吹嘘道:这个城市每个国民的平均收入非常高。大多数人看到这个就以为这个城的大多数市民都属于高收入阶层。可是,如果有一个亿万富翁恰好住在该城,其他人就可能都是低收入的,而平均个人收入却仍然很高。
统计学的报告有时甚至更加使人糊涂,这因为有时“平均”这个词不是指算术平均值,而是指中值或众数。中值(中位数)是按大小顺序排列的数值表中中心位置对应的数值。如果表中数值有奇数项,则中值就简单地是中间项的值。如果有偶数项,中值往往取中间两项的算术平均值。
中值对萨姆来说比算术平均值重要,但就是中值也使人对这个工厂的工资情况得出歪曲了的印象。萨姆反正要知道的是“众数”——表中段常出现的数。在这里,众数是发给工厂中数目最多的人的工资数。有时候这叫做典型情况,因为它比其他任何情况出现次数都多。在上面最后一个例子中,那个城里一个典型家庭代表收入为众数的家庭,它也许很穷,但由于有少数亿万富翁,这个城的平均收入也还非常高。
没有找到相关结果
已邀请:
13 个回复
立尽斜阳 (威望:0)
赞同来自:
M:绝不是这样。统计关系往往不能表明因果关系。由于多数人是以中等速度开车,所以多数事故是出在中等速度的行驶中。
M:统计数字还表明,在亚利桑那州死于肺结核的人比其他州的人多。这是否就意味着亚利桑那州的气候容易生肺病?
M:正好相反。亚利桑那的气候对害肺病的人有好处,所以肺病患者纷纷前来,自然这就使这个州死于肺结核的平均数升高了。
M:有一个调查研究说脚大的孩子拼音比脚小的孩子好。这是否是说一个人脚的大小是他拼音能力的度量?
M:不是的。这个研究对象是一群年龄不等的孩子。它的结果实际上是因为年龄较大的孩子脚大些,他们当然比年幼的男子拼得好些。
这三个片断着重说明了,在你听到一种统计关系时,切勿轻率地对其因果关系作结论。下面再举几个例子;
1)常常听说,汽车事故多数发生在离家不远的地方,这是否就意味着在离家很远的公路上行车要比在城里安全些呢?不是,统计只不过反映了人们往往是在离家不远的地方开车,而很少在远处的公路上开车。
2)有一项研究表明其一个国家的人民,喝牛奶和死于癌症的比例都很高。这是否说明是牛奶引起癌症呢?不!这个国家老年人的比例也很高。由于癌症通常是年龄大的人易得,正是这个因素提高了这个国家癌症死亡者的比例。
3)一项研究表明在某个城市心力衰竭而死亡的人数和啤酒的消耗量都急剧升高。这是否表示喝啤酒会引起心脏病发作?不!两种情况的增加是人口迅速增加的结果。若按同样的理由,心脏病发作还可见归咎于上百个其他因素,如咖啡消耗量增加,嚼口香糖的人增多,玩桥牌更加盛行,更多的人看电视,等等。
4)一项研究显示出,欧洲某个城市的人口大量增加,同时鹳鸟窝也大量增加。这是否就支持了鹳鸟送来婴儿这一信念?(欧洲有一种说法,称婴儿是鹳鸟送来的,常用鹳鸟来临表示婴儿降生)。不!它反映的事实是这个城市内的房屋增多,鹳鸟就有更多地盘来筑窝了。
5)最近一项研究显示,大多数杰出的数学家是大儿子。这是否意味着头生子比以后生的儿子数学才能高些?不!这只是简单地反映出一个事实:大多数的儿子是头生子。
这可以引起一些有趣的课堂活动:
1)学生们是否做过一项调查?看他们年级的男孩子是否多一半是大儿子?或者对女孩子作了调查,是否多一半是大女儿?
2)请你们考虑100个有两个孩子的家庭的情况。男孩(或女孩)是大儿子(或大女儿)的比例是多少?(答案:3/4)(注意:一儿一女时,儿子和女儿都算老大)。当100个家庭,每家有三个孩子时,计算大儿子(或大女儿)的比例。(回答7/12)。不用说,在只有一个孩子的家庭,这个孩子总是老大。
同一性别的孩子中,老大的比例显然随家庭中孩子的多少而变,不过对多数家庭而言,这个比例都大于1/2。
上述例子也许能启发大家找出其他一些统计论述的实例,证明统计学论述在联系到因果关系时很容易建成误解。现代的广告,尤其是很多电视的商业广告正是以这种统计误解为其根基的。
==========很多人在碰到一位陌生人,尤其是在远离家乡的地方碰到一个生人,而发现他与自己有一个共同的朋友时,他们都会成到非常惊讶。在麻省理工学院,由伊西尔领导的一组社会科学家对这个“小世界悖论”作了研究。他们发现,如果在美国随便任选两个人,平均每个人认识大约1000个人。这时,这两个人彼此认识的概率大约是1/100000,而他们有一个共同的朋友的概率却急剧升高到1/100。而他们可由一连串熟人居间联系(如上面例举的二人)的概率实际上高于百分之九十九。换言之,如果布朗和史密斯是在美国任意选出的两个人,上面的结论就表示:一个认识布朗的人,几乎肯定认识一个史密斯熟识的人。
最近心理学家斯坦利·米尔格拉姆用一种方法逼近小世界的问题,学生们很容易试一试它。他任意地选择了一组“发信人”,给每一个人一份文件,让他发给一个“收信者”,这个收信者是他不认识的,而且住在这个国家另外一个很远的地方。做法是过他把信寄给他的一个朋友(是一个他没有深交的朋友),也许他很可能认识那个收信者,这个朋友再接着发信给另一朋友,如此下去,直到将文件寄到认识收信者的某人为止,米尔格拉姆发现,在文件达到收信者手中之前,中间联系人的数目从2到10不等,其中位数是5。当你问别人这到底需要多少中间联系人时,他们多数猜想大约要100人。
======随机事件以各种不同形式“成群”出现是熟识的现象,已经有很多关于统计学上称为“成群理论”的书。π中连续7个3就是随机成群的例子。如果你不断抛掷一枚硬币,或者老是旋转轮盘赌的圆盘,记下结果,你就会发现有时竟会一连串出现很长的同样结果。
密执安大学的一位工程师穆尔发现,有一个证明事件成群的惊人实验,你不妨试一试。穆尔因该实验使用了大量糖果,就称之为“糖果花纹”。这种糖果是一种制成球形的上了色冰糖、或球形彩色水果糖。取相当数量的红色球糖,相当数量的绿色球糖,将两种同样数量的糖放入玻璃瓶中。不断摇这个瓶子,直至两种色糖完全混合均匀为止。
注视瓶子的一边。你大概估计会看到两种色糖已均匀打散了,可是你看到的图案都是不规则的,大片红糖图案中点缀着许多小群的绿糖,且二者总面积相等。图案是如此出人意料,甚至数学家在乍看到时也会相信,大概有某种静电效应使得一种颜色的球糖粘住另一领色球糖。实际上起作用的是偶然性。花纹是随机成群的正常结果。
如果你们不愿相信这一点,你们可以用一张制图纸产生出同样的花纹。画一个20×20的方格图。用红绿二色来填每一小格,方法是用抛掷硬币来选颜色。在400个小格都用颜色填满时,你将会看到类似上述糖果瓶边所出现的那类图案。
成群过程中往往有一些非数字的因素。如果小汽车在高速公路上随机地分布着,我们从直升飞机上往下看,就会觉得这些汽车是成群结队的,但是实际上成群的原因远不能用偶然性来解释,因为司机一般不愿意老按同样的速度开车,当前面有很长距离没有汽车时,他们加大马力快开起来。地图上城镇的位置,下雨天接连不断,草地上三叶草、海蓬子等成块,除此以外还有很多其他成群事例都超过用偶然性可说明的程度。你可以试一试找出其他成群例证来说明有些是纯属偶然的原因,有些则是非偶然的因素造成的集群。
=======