您还没有绑定微信,更多功能请点击绑定

【翻译文章】拒绝含糊不清,坚持“绝对的”信息

本文由rambocao 翻译 校稿者:chengguo0740



克里斯廷M.安德森-库克编著

我们生活在一个媒体及销售经常杜撰数据并最终误导消费者的时代,最近的大字标题留下了一些明显的未解决的问题:


“抵押品拍卖下跌了超过30%” 从什么时候到什么时候?现在的比率是多少?这是不是一个通常自然波动的易变比率?

“南卡罗来纳的失业率从2008年2月的5.5%激增到去年1月的12.5%”,随附的文章描述2010年比率如何波动并且在11月份是10.7%。为什么选择这个时间段?



很多广告商及新闻媒体试图使他们的信息引起轰动来吸引我们的注意力。大多数情况下,这种工作场所中被传达的信息似乎已经被媒体和营销方式虚构了。


最近,我通过读戈尔德.吉格瑞泽和唐纳德J.威乐的书籍已经体会了一些由于数据表达产生误导的实例。这两位作者都强调用一种不被误解的格式表示信息的重要性,这能戒除读者产生偏见,为评价或者独立作出决定给出充足的信息。

他们的观点建立在爱德华塔夫特的工作基础之上,关键的思想是:




以其自然的形式(绝对的概括)给出原始数据,(这种自然形式)指的是两个观察对象的相对比较。



提供充足的历史数据来给予近期变化实际可行的评估,考虑自然的波动和以前的趋势。



如果一个待估计量存在不确定性,要包括一个测量不确定性的量化的点估计。


仔细考虑下面三个易被误解或陈述含糊不清的例子,它阐明我们要怎样适应从话语片段或标题中重新审视数据报告,以使信息最大化以及误导最小化:

产量提高10%




这听起来易记而且给人印象深刻,但是结果将会使你兴奋吗?吉格瑞泽强调人类的思想是怎样自然地倾向于填充丢失的信息来给出陈述的语境而使意思更易懂。如果没有额外的详细的资料,你不可能知道这是否是一个重要的事实。

为使你对这种陈述做出一个有见识的评价,应该为你提供其他什么样的信息呢?


首先,你需要知道和这段时间间隔相关的比较期:你在看这个月和上个月的产量对比吗?和去年这个月的产量比较了吗?和过去10年中这个月份的平均产量对比了吗?


其次,当这种比较是建立在一个以前的单独的时期时,它对确认两个观察值之间的自然变化是有帮助的。 图表1展示了产量从上月到这月变化10%的四个不同的情形。


图表1


112014knznaz3ovaatj33e.jpg






在除了第一种情况(A)的其他案例里面,我们不太可能认为这种变化是产量真正变化的象征。如果最后月份的观察数据代表产量从先前月份(B)一个13%的下跌,那么你有可能会对这个月的增长印象很少。


类似地,如果有一个季节趋势(C),产量的增长可能符合规律的年度变化趋势,你有可能通过观察与其他年度这个月份的平均值的对比对情况有个更好的了解。 最后,(D)展示了一个高度变化的过程,在这个过程里有10%的波动不是意外,你有可能只在变化超出过程自然变化范围之外时才有反应。


你关于10%变化的解释对于理解近期变化的形式起到很大作用。为了评估这种变化的重要性,有关类似月份的数据的比较以及相对于产量特性的不确定性的比较(比如,几年有着相似季节模式月份的平均值)是理想的。


同样,一个简单的时间序列图在y轴显示的范围——有充足的历史数据来捕捉季节性——是一个为解释说明提供合适环境的有效概括。 实际产量数据的包含内容和近期的历史数据填满了必要的细节,并且允许读者自己来决定是否应该考虑罕有的和重要的变化。


上个季度缺陷率翻倍



缺陷率一般通过从一段时间间隔的产品抽样中估计。缺陷率的变化是相对于前一段时间而言的,但是由于缺陷率根据不同的生产环境而变化,所以理解缺陷率真正的涵义对于评价这种变化的实际重要性是至关重要的。


如果你的焦点在过程的产量,那么缺陷率从1/50变化到2/50的比缺陷率从1/100,000变化到2/100,000有更大的影响。如果你的焦点是在安全上,那么在缺陷率上的任何变化可能会被认为相当重要。


根据抽样比率和测试成本,与估计缺陷率相关联的不确定性可能变化相当大。如果缺陷率的点估计翻倍但是比率保持在95%的不确定区间(比如,以前季度为0.002 +/– 0.002,当前季度为0.004 +/– 0.0025),抽样程序本身可能就能解释一大部分实测的变化。


但是如果相关联的不确定性很小(比如,以前季度为0.002 +/– 0.0005,当前季度为0.004 +/– 0.0005),那么在利率上实测的变化不太可能被抽样过程解释,而是由于缺陷率真正的变化。然而,考虑实测变化的实际重要性也是很重要的。


为了处理这种情况,我们用估计比较季度和新季度的相关不确定性来说明绝对缺陷率。这帮助我们使绝对的变化以及零件既定用途变化的重要性


另外,一张用包括不确定性的时间序列图来总结缺陷率最近趋势的图表将帮助我们评估长期趋势,同时评价给定的抽样和测试程序方面的自然波动。

温度增加10%引起产量增加15%


最后一个例子阐述了理解单位的重要性以及怎样报告绝对的数字,而不是相对的变化,这样将提高说服力。标题中的数据来源于一个实验室研究,这个研究考虑了不同的生产环境。

默认的生产温度是100华氏度,并且发现温度变化到110华氏度(10%的增加)时产出从72%增加到82.8%。


如果给了真实的数据,你可能会构想出一些可供选择的标题,这些标题似乎描绘了结果但是同样缺乏真实的信息。你可以使用摄氏度(100华氏度=37.8摄氏度,110华氏度=43.3摄氏度,引起14.6%的增加)或者报告缺陷率(72%的产出↔28%的缺陷率,82.8%的产出↔17.2%的缺陷率,引起缺陷38.6%的减少)。

因此,相同的绝对的结果可能会转换成下面任何一种误导或者不完全的标题:




温度(摄氏度)增加14.6%引起产出增加15%。

温度(华氏度)增加10%引起缺陷减少38.6%。

温度(摄氏度)增加14.6%引起缺陷减少38.6%,不包括原来的配件。




显然,变化的比例高度依赖选择的总体并且给研究的结果带来不同的印象。在这个标题上有几处其它重大的错误。


首先,温度增加的百分比实际上毫无意义。百分比假设零点在相当于某种绝对事物的程度上。在这里,0摄氏度和0华氏度相对主观,而且不能代表一个程度的起始点,相反这个变化百分比能够被很明显地测量。


或许更多的误解是那种温度变化同产量变化类似的思想。或许比较产品输入成本的变化(将温度从100华氏度提高到110华氏度花费多少成本)与输出产量的变化更为合理。但是本标题是一个典型的“苹果到桔子”的对比,缺少了内在的含义。

完全且独立的(信息)


没有能在绝对的程度上提供完全信息的替代物——它允许读者直接评定环境及信息的重要性。再这样的条件下,最近历史的绘图或者数据概括对于加强语境及自然变化的测量也是有价值的。当通过判断获得了大量的利益时,与此相关的不确定性也将被包含在内。



尽管易记的标题和相对的概要有被注意的机会——数据采集者、统计员和那些报告数据的人们——基本的结果应该不受这些策略的影响而且能够提供一个完全独立的概要,并通过它所包含的所有关键信息来做一个明智的决定。


克里斯廷M.安德森-库克是一位洛杉矶国家实验室的研究科学家,她在美国安大略湖滑铁卢大学获得了统计学博士学位。安德森-库克是一位美国统计协会会员,而且是ASQ资深会员。

0 个评论

游客无法查看评论和回复, 请先登录注册

发起人

推荐文章

文章状态

  • 发布时间: 2011-08-10 11:26
  • 浏览: 2673
  • 评论: 0
  • 赞: 0