美国华人
第1822篇文章
编者按
日前,针对美国CDC公布数据显示美国因新冠死亡的年龄中位数为78岁,一些公众号发表了各自的解读,微信群里随之发生了激烈的争论。虽然有人称这个讨论“不涉及政治立场和社会伦理”,但归根结底,冰冷的数字后面是逝去的生命,这场讨论必然和道义与人性连接在一起。而科学被政治左右和解读在当今的美国已不罕见。《国际时政群》几位群友在做一次尝试,那就是通过辩论探求科学真相,让更多的人认清纷杂的政治现实,尊重生命,尊重人性。下面节选他们的辩论发言,欢迎大家在阅读之后,能留言发表宝贵意见。
正文共:3830字
预计阅读时间:10分钟
撰文:杨子竹(黑洞), 霍林河
死亡年龄的中位数 vs 平均年龄
读了张勇进先生《如何理解美国因新冠去世者死亡年龄的中位数为78岁》一文后,感觉和他在《国际时政群近日内三位群友关于美国新冠死亡数字的讨论》🔗中的发言相比没有什么新意。
全文除了罗列一些初级统计学课本常识,中心论点还是纠结于美国新冠死亡年龄的中位数与死亡平均年龄的关系。
我们前一篇文章根据CDC8月19日公布的数据,以w(i)作为各年龄段死亡人数,并以所占比率作为该年龄段的权重,设x(i)为各年龄段所取的计算年龄,选择各年龄段最低年龄做下限,最高年龄做上限,利用如下简单的加权平均计算公式:
计算出我们所讨论的这组CDC数据的死亡平均年龄的范围。这里把最高年龄组85岁以上年龄组群的最高取样年龄设为94岁,计算出美国新冠病毒死亡平均加权年龄的区间范围是:70.6岁~79岁,也就是说,美国新冠病毒死亡的平均年龄在这个区间(70.6~79岁)。
采用区间范围接近上限值的78岁时就与CDC公布的中位数78岁一样了。所以我们认为,张勇进先生的纠结在这里没有意义。
美国新冠死亡平均年龄在80岁以上吗?
在张勇进的文章里面有这样一段话:
“经验的判断”
根据美国CDC已经提供的数据,我们可以对数据的大致分布做如下的描述:
在死者年龄中,0-66岁的死亡人数为25%(其中65-66岁的占5%);
67-78岁的死亡人数占25%;
79-87岁的死亡人数占25%;
88-100岁以上的死亡人数占25%。
在这里,有两个重要的数据标志:一是80%的死者年龄都在65岁以上;二是死者年龄的中位数为78岁,按照这样的年龄结构和以往的研究经验,凡是熟悉统计的人们就很容易凭感觉(或称专业敏感度)做出推断:死于新冠病毒的病人其平均年龄应该是在80岁以上,而不是以中位数表示的78岁。也就是说,此次疫情中有将近50%的死者年龄都已超过美国的平均寿命。”
这种说法有失严谨。CDC报告指出,65岁以上人口死亡比例因州而异,许多州65岁以上人口死亡比例在80%以下,有Wisconsin, New Jersey, lllinois,New York,California,…Texas, District Columbia等18个州。
请参考Kaiser Family Foundation的信息:
随后张勇进凭统计人的直觉判断死亡平均年龄在80岁以上。很难让人理解 ,为什么有现成的具体数据不去计算,就这样地凭直觉“经验的判断”?以上我们已经指出,死亡平均年龄在70.6~79岁区间范围。
我们在这里再提供一个事实,全美国新冠病毒死亡人数,85岁以上老人死亡所占比率是33%(见上述链接)。张勇进先生在他的文章中强调,美国新冠病毒死亡人数平均年龄大于80岁,但是同时又承认CDC的中位数78岁(意味着一半78岁以上),同时张勇进先生又否认我在上一篇文章中指出的美国新冠病毒死亡年龄偏低的观点。
上篇文章我已经指出美国新冠病毒死亡人数中,80岁以上年龄所占比例不到总死亡人数的一半,包括新冠病毒感染病例年龄低龄化,与欧洲形成鲜明对比🔗。张勇进先生没有提出反驳理由,反而用洋洋数千字的统计学基础知识,最后得出了莫名奇妙的结论:
“正如我们前面通过计算加权平均数和麻州发布的数据可知,美国因新冠病毒而致死的病人平均年龄大概率为81岁” 。
麻州81岁数字是否可以
推导出全美的结果?
张勇进先生以麻州9000个死亡案例,来推导全美的新冠死亡平均年龄为81岁。
统计学的最基本原则是不能以极小样本(占整体的4.7%)来推出一个全美的近19万(本文所用数据是17万)死亡人口的大样本。要得出一个全美的死亡平均年龄,必须要建立在全美50个州的大样本基础上,没有捷径可走。
以麻州的结果推导全美近19万新冠死亡平均年龄为81岁,简直是缺乏统计学基础知识的轻率断定。这既不符合统计学原理,更不能归于“职业敏感度”。
一般来说,计算平均值最好使用原始数据,这样统计结果才是最准确的。在美国CDC于2020年8月19日公布的数据中,因新冠死亡的病人数为170,566人,即它基本上是一个全样本统计,不存在抽样误差和统计误差的问题。然而,由于美国CDC没有直接公布死者的平均年龄,而只是公布了:
1. 不同年龄段的死者人数;
2. 死者年龄的中位数为78岁;
3. 四分位数的间距为67-87岁;
4. 65岁以上的死者占80%。
因此,研究者只能在这些信息中,利用以往的研究经验和统计方法进行推断。
需要指出的是麻州拥有号称Romneycare(罗姆尼医保)的全美国最好医保体系,几乎人人拥有医疗保险,相比前文所述的美国许多州65岁以上人口死亡比例在80%以下,麻州数据的小样本不具有全国范围大样本的代表性。
“数据集中度”的结果是什么?
张勇进先生在他文章里说:
由此,我们也可以假设,在每个年龄段(10岁)里,样本也趋向或集中于大龄者,并且,同时假定每个年龄段的数据集中度都是等概率的,这样,当样本的集中度从60%逐步提高到70%、80%和90%时,死者的平均年龄也就从78.09岁,逐步提高到79.33岁、80.58岁和81.84岁。
也就是说,一旦每个年龄段90%的样本都集中于大龄者,从而与死者整体的年龄集中度(约92%)保持一致,那么,死者整体的平均年龄就会超过80岁。
这里张勇进先生又引进一个新概念——“数据集中度”。按照这个说法,每一个年龄段的集中度和全部数据的集中度一样,就是在任何一个年龄段90%多的患者都集中在年龄段的高龄的一半。还难道就是张勇进的职业敏感度?
张勇进先生的集中度假设是什么意思呢?就是说在一个年龄组里,和整体数据一样,90%的人数都在大年龄的一半。比如在5-14年龄组,90%的人集中在10-14岁里。在5-24的年龄组里,90%的人集中在15-24岁人群里。按照他的假设任何一个年龄区域集中度都是前一个年龄区域的9倍,结果各年龄组死亡人数如下(以5-14为基数)死亡人数如下,总数十几亿:
5-14: 28
15-24: 252
25-34: 2268
35-44: 20412
45-54: 183708
55-64: 1653372
65-74: 14880348
75-84: 133923132
85以上: 1205308000
这还没用0-4年龄段的,如果从那个年龄段开始(14人)推算,85岁以上死亡人数比世界人口还多了,这么荒唐的假设,难道就是张先生的职业敏感度?
新冠到底让美国人“折寿”多少年?
最后,让我们看一下张勇进先生对新冠病毒对美国人折寿的说法:
正如我们前面通过计算加权平均数和麻州发布的数据可知,美国因新冠病毒而致死的病人平均年龄大概率为81岁,那么,理论上说,即使假定谷歌的预期寿命模型是可靠的(注:实际上大多数预测模型都是不可靠的,因为很多变量是不可控的),美国老年人因新冠病毒折寿的平均年岁要小于7年。
哈佛大学公共卫生学院流行病学教授William Hanage博士对Live Science的说:“与往年相比,今年的过度死亡人数令人震惊。”
根据加州大学旧金山分校温伯格实验室(Weinberger Lab)的数据显示,在美国估计还有228,200人死亡,Hanage指出,到目前为止,许多死亡的人都患有非致命疾病,如果不是感染了冠状病毒,否则他们不会死。例如,患有糖尿病或高血压的人如果未感染COVID-19,则寿命可能会延长数十年。
原文地址:https://www.livescience.com/covid-19-comorbidities.html
综上所述,张勇进先生的文章结论”正如我们前面通过计算加权平均数和麻州发布的数据可知,美国因新冠病毒而致死的病人平均年龄大概率为81岁” 是没有科学根据的误导。他的所谓加权平均数,是无法使用统计公式再证的,不具备统计学上的意义。不论是2000人还是9000人麻州的新冠死亡样本,是不具备推算全美新冠死亡的平均值为81岁。我们推算的美国新冠病毒死亡平均加权年龄的区间范围是:70.6岁~79岁。
杨子竹(黑洞)、 霍林河执笔,综合了《国际时政群》群友餘葛瑞质疑的核心內容。
撰文:杨子竹(黑洞), 霍林河
本文由作者授权原创首发于《美国华人》公众号
本文由作者投稿,内容不一定代表“美国华人”微信公众号立场。
阅读原文 Read more
更多精彩内容
点赞+点在看=鼓励一下