导言:美国2020年11月3日的总统大选,几乎全世界的媒体都聚焦于由威斯康星州的统计数据而引发的所谓“拜登曲线”。川普的支持者以质疑这个统计曲线分布不合常态和常理,从而质疑选举舞弊。尽管这个问题,在现在的美国几乎早巳水落石出,法院和民众都已放弃质疑。但是华人的挺川人士,时到如今仍纠结于“拜登曲线”而迟迟不能释怀,从而引发以下的讨论。希望阅读本文的讨论后,大家可以接受事实和真相。
“关于拜登曲线的进一步思考”一文,发布于2/27/21博雅微信群,由于作者没有署名,本文称作者为轶名。
轶名原文:
一、问题的提出
11月4日凌晨,在威斯康星州密尔沃基市发生了“拜登曲线”,一些选民和围观的瓜众对此现象产生了质疑,质疑的焦点主要集中于两点:
- “拜登曲线”背后的数据是否是真实的?
- “拜登曲线”背后的数据状态,无论从纵向和横向的比较来说,是否是正常的?
二、问题的逻辑
对于“拜登曲线”的质疑,可以通过两种方式进行查实:一是实地核查原始选票,以验证选票的真实性。二是利用统计学工具,将“拜登曲线”背后的原始数据,放在整个密尔沃基市的选票数据,以及全国和其他地区的数据中进行对比分析。在实际操作中,一个候选人的得票数来源于两个渠道:一是邮寄选票,二是投票站选票,只要这两个渠道的投票数据经过汇总和比对后,与已经公布的历史数据和现实数据相吻合,以及与统计学规律和人们以往的经验参数相符合,那么,这个结果就是值得信任的;反之,就是不可信任的。于是,分别证明这两个渠道的数据各自的合理性,以及与已有的各种统计结果的吻合度,就成为整个论证过程的焦点。
三、已知的数据条件
- 2020年,密尔沃基市总计有451606个选民投票,其中,投拜登的选民有317251人,占选民总数的69.13%;而投川普的选民有134355人,占选民总数的29.28%
- 在11月4日“拜登曲线”背后的169519张邮寄选票中,拜登获得143124张选票,占总票数的84.43%;川普有23642张选票,占总票数的13.95%。而整个邮寄选票占总票数的37.54%(169519÷451606=37.54%)。
- 假定11月4日“拜登曲线”背后的169519张邮寄选票,就是密尔沃基市邮寄选票的全部(事实上可能不是这样的),那么,投票站的选票总数就是282087张(451606-169519= 282087)。
四、数学推论
1. 拜登的得票总数=邮寄选票得票数+投票站得票数
拜登邮寄选票的得票数,根据11月4日拜登曲线背后的数据,拜登获得143124张选票。拜登投票站选票的得票数:拜登总得票数减去邮寄选票的得票数,即174127张(317251-143124=174127)。
2. 川普的得票总数=邮寄选票得票数+投票站得票数
川普邮寄选票的得票数,根据11月4日拜登曲线背后的数据,川普获得23643张选票。川普投票站选票的得票数:川普总得票数减去邮寄选票的得票数,即110713张(134355-23642=110713)。
五、数据分析(疑点二、三省略)
疑点一:
在密尔沃基市邮寄选票占比37.54%的条件下,在邮寄选票中,拜登获得84.43%的得票率;在投票站获得的得票率为61.72 %(174127÷282087=61.72%)。与此同时,在邮寄选票中,川普获得13.95%的得票率;在投票站获得的得票率为39.25%(110713÷282087=39.25%)。这样一来,拜登无论在邮寄选票中(84.43%),还是在投票站选票中(61.72%),都占据绝对优势,这与人们的实际观感反差较大,因为,人们凭实地观感(出口民调)和直觉判断,在现场投票中,川普的支持者应该占大多数,否则,以下逻辑就无法成立。
例如,在全国普选票中,2020年大选总计有15800万人进行投票,其中,拜登获得了8100万张选票,占总票数的51.27%;川普获得7500万张选票,占总票数的47.47 %,基本上,拜登与川普各占一半左右。由此推论,如果拜登在邮寄选票中获得80%的得票率,那么,反过来,川普就应该在投票站选票中占据80%左右的选票,两者是互为因果的,否则,就无法与51:47的大选总体结果进行平衡。
结论:
至于网上有很多人说(包括538网站),在2020年大选中,在其他州郡(县)也出现了类似“拜登曲线”的情况,但是,这里必须严格弄清楚,那些曲线背后的数据是否也是邮寄选票?如果仅仅是一次性的数据导入,其中,包括了邮寄选票和投票站选票这两部分——客观上,它就会表现为曲线的陡升。所以,用其他类似“拜登曲线”的存在来证明密尔沃基市邮寄选票中84.43%的合理性,这个理由是不能成立的,因为,我们在这里讨论的问题是:在邮寄选票中,是否会出现84.43%这么高的得票率?
****************
馀葛瑞:点评轶名“关于拜登曲线的进一步思考”一文
轶名的前文和上文内容和结论几乎一致,是一个典型的偷换概念的例子,即混淆全国综合选票与密尔沃基县邮寄选票的比率。全国综合选票拜登获得51.27%,川普获得47.47%,作者直接拿来推算和比较密尔沃基县的邮寄选票拜登获得数84.43%,得出所谓不合理性的判断。事实上拜登在密尔沃基县获得84.43%的邮寄选票与拜登全国的综合得票率51.27%并不矛盾,轶名居然把这一结果说成“无法与51:47(拜登与川普全国得票比率)的大选总体结果进行平衡”。从而得出所谓的疑点和论点。一个伪论开始产生,从而引出他的全文。
作者运用统计学的所谓经验计算:第一步就错了,采用全美综合选票的平均率,直接套用在密尔沃基县,之后作者的每一步论证和计算步步皆错。
以一个美国综合选票的总体平均得票比率,去推导出威州Milwaukee县邮寄选票的不合理,这种似是而非的样本套用,在统计学上是犯大忌的!作者自诩统计专家,难道不知?问事求实何以如此不严谨?
将两个没有可比性的样本进行套用再加推导,结果一定是错误的。拿全国样本去推导任何一个县的邮寄选票数,结论必定是全美国每个县的邮寄选票比例都一样,那就每个县都在舞弊啰!若如此,或者说希望如此,川普团队早就在所有诉讼中胜诉了。但是,可能吗? !
作为者将IQ—智商测验的总体样本与个体之差的方法,照搬到计算美国总统大选的各县投票数,犯了统计学方法论的错误。因为,把没有可比性的数据进行比较和推导,毫无疑问,得到的只能是错误的数据和结论,无法反映真实情况。
错误被指出,不认也还罢了,还要再写篇短文补疮。殊不知,疮被捂住只会烂得更深。短文在形式上符合写作格式:一,问题的提出;二,问题的逻辑;三,已知的数据条件;四,数学推论;五,数据分析和结论。
然而,这篇短论的致命伤在哪里?徒有其表,内容不堪一击。分析如下:
1)问题的逻辑。文章说“对于“拜登曲线”的质疑,可以通过两种方式进行查实:一是实地核查原始选票,以验证选票的真实性。二是利用统计学工具,将“拜登曲线”背后的原始数据,放在整个密尔沃基市的选票数据中进行对比分析”。
恰恰是这个被称为“问题的逻辑”的部分,作者提出一个没有逻辑的假设。川普的律师团队,在11/4/20选举投票后,早已向该县县议会提出质疑,从而对全县的邮寄选票和投票站选票,进行了重新唱票。结果无疑义,没有发现任何舞弊。作者不做写作之前的功课,对一个已经是历史定论的选举结果发问,亦或故意、亦或无知,提出了“问题的逻辑”,止增笑耳!
逻辑思维是人类特有的理性认识阶段,即运用概念、判断、推理等思维类型反映事物本质与规律的认识过程。既然事实已经证明了威州Milwaukee县的选举结果,这个所谓的“问题的逻辑”首先就不构成“问题”,成为假命题和伪命题,也就无需逻辑思维了。
2)已知的数据,数学推论和数据分析。在这三个部分,作者只是对媒体已经发布的相关信息和数据,进行了小学初级算术水平的加加减减乘乘除除。丝毫没有运用他深以为高大上的统计学专业原理和知识,却偏要冠以“数学推论”和“数据分析”误导读者。本以为数理统计大师将要推出“凡尔赛”高论了,实则是多余段落,与作文的结论不构成论证关系。
3)结论。作者说“拜登无论在邮寄选票中(84.43%),还是在投票站选票中(61.72%),都占据绝对优势,这与人们的实际观感反差很大,因为,人们凭实地观感或出口民调,在现场投票中,川普的支持者应该占大多数”。
作者推导结论一,与“已知的数据和数学推导”不具有任何关联价值。其一,邮寄/直投选票84.43%/61.72%,已经是公开发表的数据,本无须推导,何必多扯两段“已知的数据和数学推导”?占据文章3/5的篇幅,是否为了扰乱读者的视野?其二,文中称“在现场投票中,川普的支持者应该占大多数”。作者在一个传统的民主党占多数的县,套用全美的平均现象,这既没有统计学常识,又完全无视不同质的美国各地选票分布实情。生搬硬套指鹿为马地推出的一个主观臆想的结论,如果不是故意,只能说作者的想象力实在太丰富了!
作者推导结论二,“人们凭实地观感…民调,现场投票中,川普的支持者应该占大多数”。 Milwaukee县是民主党传统的大本营,这次拜登的总得票率为69.4%;川普的得票率为29.4%。所以,无论是邮寄选票还是实地选票,民主党人都占绝对多数。这样一个常态和事实,怎么会被作者、这位时常以学术严谨的学者自诩的专业人士推导出与事实相悖的结论?试问作者可有结论二的信源出处和引证解释的依据?
如果不具备查询的功力和能力,只是凭空引出全文的虚拟核心结论,这种堆砌的文字终将是斯文扫地,也就只能忽悠忽悠华川粉们继续相信舞弊存在而挺川了,无它。当然,切不要以为读者都会与作者一样,不思考、无常识,将虚假结论照单全收……至于“实地观感”之说,常识是,在美国投票站现场,没有人可以询问投票者的政治决定,因为这有违美国宪法规定的投票规则(晓峰已详细解释了,不再赘述)。如果作者是受谣言误导,情有可原,如果仅凭自己想当然得出,希望日后引以为诫,谨言慎行。
总之,两篇几乎内容相同的论文,从问题的逻辑,到数据的运用以及数据推导,乃至得出结论,谬误连连。文章结论与官方公布的统计数据、再次唱票的结果、以及官方公证的结果完全不符,不知作者哪来的迷之自信,以真理在握之姿“质疑”已成为历史记录在案的事实。究其根源,无非是作者心里早已认定了“拜登曲线“就是舞弊,所以在不收集真实可靠、官方公布的资料之前提下,想当然地臆造了一个结论。这与川普先断言只要自己输了大选就是民主党舞弊,然后要律师团队为这个结论去罗织证据,相似何其乃尔!
我们欢迎有质量有意义的交流,欢迎作者运用真正的统计学专业知识发文反驳。
参考资料:
https://www.politico.com/2020-election/results/wisconsin/
https://county.milwaukee.gov/EN/County-Clerk/Off-Nav/Election-Results/Election-Results-Fall -2020
**********
杨子竹、霍林河:点评轶名“关于拜登曲线的进一步思考”一文所运用的大数定律
杨子竹:在数学与统计学中,大数法则又称大数定律、大数律,是描述相当多次数重复实验的结果的法则。根据这个法则知道,样本数量越多,则其算术平均值就有越高的机率接近期望值。大数法则重要性在于其“说明”了一些随机事件的均值的长期稳定性。人们发现,在重复试验中,随着试验次数的增加,事件发生的频率趋于一个稳定值;人们同时也发现,在对物理量的测量实践中,测定值的算术平均也具有稳定性。比如,我们向上抛一枚硬币,硬币落下后哪一面朝上是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一,亦即偶然之中包含着必然。
大数定律的应用场合,往往是对一个大的集合(比如:数千万选民)做一次民意调查的成本较高,或者是对一套生产流水线生产的几万件产品的合格率做全部检测无法进行,从而采取抽样调查或检测,这样就可以大大降低成本,用近似的(可接受的)数据反映实际情况;比如在用户调研中,也经常通过抽样调查的方式并对比打分的方法做评估。这里就需要了解置信度和抽样误差的概念,此时才有必要计算样本数,而且有最低样本数的概念。
轶名没有搞清楚什么是大数定律,以为贴上其标贴就万事大吉。这次密尔沃基市的选举(包括所有其他地方的选举)无论是邮寄选票还是现场投票都已经完全被统计出了具体数据,哪里还需要再计算样本数?密尔沃基市所有的选票都已经精确到个位数地完好地被选举机构统计出来了,就是538.com网站公开的拜登得票数,也反应在538.com的较高解像版本图表(图1 )中,而轶名还在煞有其事地计算此次选举的样本数,难道轶名对大数定律如此痴情,如此这般地胡乱套用?确实匪夷所思。密尔沃基市的选举结果的完整统计结果就摆在那儿:拜登综合得票率69.4%,川普得票率29.4%
运用大数定律生搬硬套,是无知者无畏的胡思乱想,也足以证明轶名真实水平。所以你的全文结论一定是错误的。
霍林河:轶名的狡辩手法是拉术语做虎皮。每次讨论他都拿出一个刚学到的统计学术语,视为珍宝,以为别人都不知道,然后胡乱应用,自己就自以为是专家了。大数定律的全数据样本是均匀分布,在其中拿出部分样本也是随机选择。这也可以应用到统计选票上,比如一个县的选票有30%投给川普,70%投给拜登。如果把这些选票全部均匀混合起来,再随机拿出来统计,的确是统计越多就越接近3:7的比例。但是选票是按照选票类型、选举站来公布的,每一个选举站的选票分布并不是完全一样的,邮寄选票的得票比例和现场投票的得票比例也不是和整体一样的。他以为一个县的最终比例是3:7,所有投票站的比例也是这个比例,邮寄选票也是这个比例,不是这个比例就是作弊了。这就是他既不懂大数定律的实质,又一味胡乱套用,以致错误时时发生的根源所在。
轶名的问题本质是不了解数据本身的性质就撰文写作。比如他去年引用的一篇对疫情死亡人数分析,不了解死亡人数是当日统计上来的人数,而不是当天的死亡人数,所以周末统计的数字往往比工作日的数字要低很多,他看到某一个周日的死亡人数很少,就说疫情断崖式下降。我说他智商断崖式下降,他还拿微积分来做辩解,结果更是荒唐了,显得他无知可笑。
轶名的分析方法有两个荒唐的要害:一是用抽样否认全统计真实数据,二是用主观感觉否定真实数据。不懂装懂,害己害人,不仅玷污学术讨论的空气,更是将严肃的时政讨论推向庸俗化。