统计是怎样撒谎的呢?看看2020大选时,统计专家是怎样用数据推断出拜登在佐治亚州选举舞弊,从而被特朗普阵营、白宫官员和狐狸台当作宝贝般大肆宣扬的。
正文共:1428字
预计阅读时间:4分钟
撰文:西岭
马克吐温说过:世界上有三种谎言:lies, damned lies, and statistics (谎言,该死的谎言,统计数字)。
有一个笑话,前苏联最高领导人勃涅日列夫一次和美国总统尼克松一起,在红场检阅苏联武装力量。在陆海空导弹部队等各军兵种威风凛凛、气势昂昂地走过之后,来了一队衣冠不整、边幅不修、举止怪异的人,其中不少人还戴着眼镜。尼克松感到很奇怪,问:这些人是谁?勃涅日列夫说:这些人是我的秘密武器。他们是统计专家。我准备把他们派到贵国去,他们对贵国造成的伤害,可以比飞机大炮导弹还要厉害。
统计是怎样撒谎的呢?我们看一个例子。平均值是最常用的统计量。但这个统计量却有个致命的毛病:容易受outlier(离群值)的影响。比如某个区有一百户人家,平均家庭年收入是100万美元,乍一看这是个很富裕的区域。殊不知,这个区里住了一个亿万富翁,年入9千万。把他扣除之后,这个区的平均家庭年收入一下跌倒10万美元多一点。
这个富翁就是个离群索居的outlier。如果不把他排除,平均值就是个很大的谎言。
在类似情况下,中位数比较不会撒谎,它比较不受outlier的影响。所以政府机构、研究机构在描述人群的收入水平时,多用中位数这个比较诚实的统计量。
不久前,有一个统计谎言的例子。在2020年美国总统大选中,民主党人拜登赢得佐治亚州,他比特朗普多得0.2%(11779张)的普选票。而四年前,2016年,同样在佐治亚州,特朗普比民主党候选人希拉里•克林顿多得4.1%的选票。该州是传统上的红州,2020之前已经数十年都是共和党总统候选人的囊中之物。于是乎,一位加尼福尼亚的统计“专家”,某某博士,大肆做了一番统计分析,计算了Z值,来推断这两个事件都发生的概率有多大。
结果他计算出Z值高达108,相应的概率是0.000000000000001,言下之意拜登不可能赢佐治亚,舞弊实锤了!
不出意外,这位专家的分析被特朗普阵营、白宫官员、狐狸台等当作宝贝般地反复引用,被当作拜登舞弊的”科学证据”、”统计证据”,大肆宣扬。
事实上,该专家对z值的诠释是典型的统计谎言。为方便理解,可以把此问题简化为一个经典的抛硬币的问题,假定一个硬币,第一组试验中抛足够多的次数(比如1百万次)以后,正面朝上的结果比反面朝上多4.1%,我们可以根据统计检验推断此硬币正反两面不均,也许反面比正面多了一些污垢,也许正面比反面多了磨损。那么,用同一枚硬币在相同条件下进行第二组试验,的确极不可能出现反面朝上比正面朝上的结果反超0.2%的情况,或者说这两种试验结果都发生的概率小到可以忽略。
但现在的问题是,我们有的是完全不同的两枚硬币!而且进行抛币试验的条件也完全不同。那位专家的整个分析是基于两枚硬币完全相同的假定,抛币试验的条件也完全相同。事实上,2020与2016完全不同:拜登不同于希拉里,特朗普也不是四年前的特朗普(2016年选民对他还不了解),美国的国内环境也不可同日而语。所以,用硬币试验的语言,是完全不同的两枚硬币、在不同条件下进行试验,怎么比较?那位专家如果不是自己不通,就是蓄意混淆,拿统计来蒙人。
简言之,专家计算的高Z值证明的不是拜登舞弊,而是证明了拜登和希拉里是完全不同的候选人,并且2020年的特朗普不同于2016年的特朗普。
在所有的统计谎言当中,这类谎言最为恶劣。
所幸,这个谎言和其他同类谎言没有得势。如果得势,对美国的损害确实超过勃涅日列夫的飞机大炮。
图解美国
追踪美国热点时事新闻。
图文解说,美华快报让您握紧时代脉搏。
撰文:西岭
编辑:Jing
本文由作者授权原创首发在《图解美国》公众号
推荐阅读