“武汉肺炎可能没有季节性流感那么恐怖”,这个根据美国抗体研究得出的结论,引起一片哗然。
近日,众多统计学家、流行病学家指出,网络广为流传的“可靠数据”有重大缺陷──不仅样本选择不具足够公平性,用于抗体测试的产品参考价值也可说是非常差。
“防护措施完全不合理”
早在当地时间 2020 年 3 月 17 日,史丹佛大学人口健康研究人员 John Ioannidis 就透过美国生物医学新闻媒体 STAT 发声:
COVID-19 的死亡率可能远低于预期,因此目前某些防护政策完全不合理。
一周后,史丹佛大学卫生政策研究人员 Eran Bendavid 和 Jay Bhattacharya 于 3 月 24 日在《华尔街日报》也发表类似观点。题为〈Is the Coronavirus as Deadly as They Say?〉(新冠病毒有他们说的那么致命吗?)的评论,两人认为之前对 COVID-19 的死亡率估值(2%~4%)“有严重缺陷”。
到了 4 月,两项新研究也提出类似观点。
2020 年 4 月 17 日,史丹佛大学研究团队(成员包括上文提到的 3 位研究人员)题为〈COVID-19 Antibody Seroprevalence in Santa Clara County, California〉(加州圣克拉拉县新冠肺炎抗体血清流行病学调查)的论文线上发表于预印本平台 medRxiv。
该研究检测 3,330 名成人和儿童血液抗体,其中 50 份血样(1.5%)呈阳性。
为使试验样本与当地人口统计数据能互相配上,研究人员调整妇女和白人的比率,之后阳性率从 1.5% 升至 2.8%。
随后,研究人员根据敏感性、特异性两个标准,又重新评估,最终得到的真实患病率在 2.49%~4.16%,表明当地约 48,000~81,000 例感染,截至预印本论文线上发表时,当地确诊病例仅 956 例,因此感染估计数比确诊的病例高 50~85 倍。
基于此,研究人员估计武汉肺炎感染致死率(IFR)为 0.12%~0.2%,季节性流感致死率为 0.1%。
2020 年 4月 20 日,加州洛杉矶县公共卫生部门在官网宣布,与南加州大学合作进行研究,研究成果题为〈Seroprevalence of SARS-CoV-2 Specific Antibodies Among Adults in Los Angeles County〉(洛杉矶县成人中新型冠状病毒特异性抗体的血清流行病学研究)。
研究人员估计,洛杉矶约 4.1% 成年人有抗体,2.8%~5.6% 成年人有新冠病毒抗体,也就是说,洛杉矶约有 221,000-442,000 成年人感染了新冠病毒,这个数据比 4 月初报告的 7,994 例确诊病例数高 28~55 倍。与圣克拉拉研究一样,这项研究表明 COVID-19 感染致死率处于 0.3%~0.13%,接近季节性流感致死率。
两大严重缺陷
这两项研究透过评估 COVID-19 分别在美国加州圣克拉拉和洛杉矶的真实传播情况──出发点毫无疑问正确。经由研究,确定武汉肺炎疫情在当地的真实感染程度,自然有利于推出政策、措施,努力控制疫情传播,同时也更能评估疾病的严重程度与死亡率。
由于美国的诊断测试非常有限,许多病例症状轻微、甚至无症状感染,因此研究人员预计圣克拉拉和洛杉矶的新冠病毒感染人数都超出预期,这一点没有争议。
真正有争议的是──研究者表示,COVID-19 的致命性远不及预期,而由于死亡人数增长变化不大,COVID-19 与季节性流感的死亡率相近;且 COVID-19 可能没有季节性流感那么致命,目前采取的缓解措施无济于事,没有必要。
由于加州洛杉矶县公共卫生部门提供的数据不多,也几乎没有披露统计和方法细节,因此学界主要分析的是圣克拉拉研究,不过多数人认为洛杉矶研究也可能有相似缺陷。
先不论上述结论,学术界认为,圣克拉拉研究有基本的计算错误和选取样本、统计数据偏差,主要有两方面问题:
第一,圣克拉拉研究样本选择不具足够公平性:
- 研究是透过 Facebook 广告召集志愿者,这就把测试样本限定为 Facebook 用户。
- 样本检测也都是透过设置开车直通测试站点进行(如下图),这就把测试样本仅限定为方便自驾的人群。
- 志愿者透过自荐方式参与测验,招募广告也有一种“参与检测就能知道您的健康状况,让您和家人更安心”意味,所以积极参与测验的志愿者可能都迫切想知道自己是否感染病毒,这可能也会增加阳性比例,所以武汉肺炎的潜在确诊数将比实际更多。
更有甚者,据外媒 Buzzfeed News 披露,论文作者之一 Jay Bhattacharya 的妻子之前透过邮件,利用高中学生名单招募学生家长参与实验,这可能会进一步使结果产生偏差。而研究团队对此不予置评。
第二,学界最大的担忧也许是,研究人员用于两项研究的抗体测试并不准确。
由于武汉肺炎疫情肆虐,美国食品药品监督管理局(FDA)允许厂商在没有常规审查的情况下,在市场出售检验产品,研究团队使用的 Premier 检验产品便是其一,并未经过彻底的准确性审查。FDA 之前甚至警告过相关人士要注意局限性。
Premier 之前公开阳性、阴性样品测试从而确定敏感性和特异性的方法,但研究人员在史丹佛大学自己测试:
- 据 Premier 的方法,检验产品正确辨识共 37 个已知阳性样本的 25 个阳性样本。史丹佛大学的测试中,产品正确辨识 160 个已知阳性样本的 153 个,因此敏感度最有可能约为 80%(可能在 72.1%~87%)。
- 据 Premier 的方法,检验产品将 30 个已知阴性样本全部正确辨识。史丹佛大学的测试中,产品只能正确辨识 371 个已知阴性样品的 369 个,因此认为特异性约 99.5%(可能在 98.3%~99.9%)。
根据特异性估计,只有 0.5% 检测为假阳性,但产品仍有高达 1.7% 假阳性的可能性。如此说来,上述圣克拉拉研究得到的 1.5% 阳性率(3,330 份样本发现 50 例阳性)意味着测出的阳性有可能全部都是假阳性,就算不是全部,参考价值也可以说非常差。
面对统计方法的质疑声,研究团队表示,目前正在重新统计分析,并将很快发表结果。
“作者欠我们一个道歉”
这两项研究目前在美国学术界饱受批评,从 Twitter 到部落格都不乏争议。
哥伦比亚大学统计学家 Andrew Gelman 以很长的篇幅提出圣克拉拉研究的问题,并在部落格直言:
我认为论文作者应该向我们道歉,因为读这篇论文本质上就是在浪费时间和精力。主要卖点是一些数字,而这些数字都是错误的统计结果。如果是无意搞砸,那不需要道歉;但犯了原本可以避免的错,就必须道歉。
18 世纪英国统计学家 Thomas Bayes 将归纳推理法用于概率论基础理论,创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等贡献不小。
瑞士巴塞尔大学(University of Basel)计算系统生物学家 Erik van Nimwegen 实验室更在 Twitter 称:
贝叶斯的墓碑下传来哭声。
Loud sobbing reported from under reverend Bayes’ grave stone. Seriously, I might use this as an example in my class to show how NOT to do statistics. Note that the CI on specificity includes false positive rates larger than the observed fraction of positives. https://t.co/SV7VwjU5yw
— NimwegenLab (@NimwegenLab) April 17, 2020
美国旧金山州立大学进化生物学家 Pleuni Pennings 针对圣克拉拉研究,在部落格犀利地指出:
我们常说,非常主张需要非常证据。然而,这篇论文的主张很独特,证据却不是。而且,即使一篇研究论文出自名校,也不能保证这项研究就很可靠。
值得注意的是,学术论文在正式发表前,先要发表预印本,经过严格的同行评审流程后才正式发表,因此,预印本的研究结论不具完全可信度(即便是正式发表的论文也可能有争议)。
特殊时期涌现的研究,很可能会让我们无意间就掉进陷阱。对此,哈佛大学流行病学家 William Hanage 也建议:
不要轻信所谓的专业数据,要注重数据来源,辨别相关论文究竟是预印本、还是在知名期刊正式发表。
- Experts demolish studies suggesting COVID-19 is no worse than flu
(本文由 雷锋网 授权转载;首图来源:pixabay)
延伸阅读:
- 重写美国疫情时间轴,加州证实 2 月初已有武汉肺炎死亡病例
- 疫情是否好转,看 Instagram 创始人打造的武汉肺炎传播预测模型怎么说