彭博社发布文章,介绍了美国一位华裔小伙用一周时间建立的一个新冠死亡人数预测模型,准确率击败了耗费巨资建模的全球权威机构的故事。作者:Ashlee Vance
华裔数据科学家顾友阳(Youyang Gu,音译)。来源:彭博社推特
2020年春天,权威的统计模型应运而生,当公众试图判断冠状病毒在3月和4月可能会有多大影响时,人们一再提到两个预测系统:一个来自伦敦帝国理工学院建立,另一个来自总部位于西雅图的卫生计量与评估研究所(下文简称IHME)。
但这些模型的预测结果大相径庭,帝国理工学院警告称,到去年夏天,美国可能会有多达200万人死于新冠,而IHME的预测要保守得多,预计到8月将有6万人死亡。事实证明,两者的预测都不是很准确。截至8月初,美国死亡人数最终达到了16万人。
去年春天预测数据的巨大差异引起了当时26岁的数据科学家顾友阳(Youyang Gu,音译)的注意。这个年轻人拥有麻省理工学院的电气工程和计算机科学硕士学位,还有一个数学学位,但没有接受过医学或流行病学等流行病相关领域的正式培训。尽管如此,他认为他处理数据模型的经历在疫情期间可能会派上用场。
4月中旬,顾友阳和父母住在加州的圣克拉拉,他花了一周时间建立了自己的新冠病毒死亡人数预测模型和一个展示病例信息的网站。不久之后,他的模型预测的结果开始比那些拥有数亿美元资金和数十年经验的机构预测的结果更加准确。
旧金山大学著名数据专家和研究科学家杰里米·霍华德说:“他的模型是唯一看起来合理的,其他模型一次又一次地被证明是无稽之谈,但发表预测的人或报道这些预测的记者却没有反省。人们的生活依赖于这些东西,而友阳是唯一一个认真看数据并好好处理的人。”
顾友阳建立的预测模型从某种程度上来说很简单。他一开始考虑研究新冠检测、住院和其他因素之间的关系,但后来发现各州和联邦政府报告的数据不一致,最可靠的数字似乎是每天的死亡人数。顾友阳说:“其他模型使用了更多的数据来源,但我决定依靠过去的死亡来预测未来的死亡,把它作为唯一的数据输入,有助于过滤掉信号中的杂质。”
Photo by Mathew Schwartz on Unsplash
顾友阳的模型中新颖、复杂的变化来自于他使用机器学习算法来打磨他的数据。从麻省理工毕业后,顾磊在金融行业工作了几年,为高频交易系统编写算法,如果他想保住这份工作,他的预测必须是准确的。当谈到新冠疫情时,顾友阳不断地将他的预测结果与最终报告的死亡人数进行比较,并不断调整他的算法,以便得出更精确的预测。尽管这活和一份耗费精力的全职工作需要的时间一样多,但顾友阳还是自愿花时间去做,依靠自己的积蓄生活。他希望他的数据不存在任何利益冲突或政治偏见。
尽管并不完美,顾友阳的模型从一开始就表现良好。他在4月底预测,到5月9日,美国将有8万人死亡。实际死亡人数为79,926人。IHME 4月底的一份类似预测称,美国在2020年全年的死亡人数不会超过8万人。顾友阳预测5月18日的死亡人数为9万人,5月27日的死亡人数为10万人,再一次和实际数字相吻合。
IHME预计,由于保持社交距离和其他政策的影响,病毒会逐渐消失,但顾预测,随着许多州重新开放,将会出现第二波大规模感染和死亡。
由于预测数据与实际情况不符,IHME在3月和4月受到了一些批评。尽管如此,在特朗普政府成员的疫情简报会上,几乎每天都会提到这个基于华盛顿大学、得到比尔和梅林达·盖茨基金会逾5亿美元资助,声名显赫的研究中心。今年4月,美国传染病专家安东尼·福奇在接受采访时表示,新冠肺炎死亡人数“看起来更像是6万人,而不是曾经预计的10万至20万人”,这是一个基于IHME的数据得出的结论。4月19日,就在顾友阳提醒第二波疫情的同一天,特朗普指出,IHME预测的死亡人数为6万人,这预示着抗击病毒的战斗将很快结束。
IHME的官员也积极推广他们的数字。顾友阳说:“在所有相关新闻节目中,IHME都试图告诉人们,到7月死亡人数将降至零,任何有常识的人都知道,在今后一段时间内,我们每天会有1000到1500人死亡。我认为他们这样做是非常不诚实的。”
IHME主任克里斯托弗·穆雷表示,一旦该组织在4月份之后更好地掌握了病毒情况,预测的准确度就会大大改善。
但去年春天,一周又一周,越来越多的人开始关注顾友阳的工作。他在Twitter上向记者展示了他的模型,并给流行病学家发了电子邮件,请他们检查他的数据。4月底,华盛顿大学著名生物学家卡尔·伯格斯托姆在推特上发布了顾友阳的模型,不久之后,美国疾控中心将顾友阳的数据纳入了其新冠肺炎疫情预测网站。随着疫情的发展,在伊利诺伊州和加利福尼亚州长大的华裔移民顾友阳,逐渐开始参加与疾控中心、专业建模师和流行病学家团队的定期会议,大家都在努力改进他们的预测。
顾友阳网站的流量呈爆炸式增长,每天都有数百万人登陆,以了解他们所在的州和美国发生了什么。通常情况下,他的预测数字会和几周后发生的真实死亡数字相吻合。
Photo by James Yarema on Unsplash
由于人们对这些预测的兴趣如此浓厚,更多的模型在2020年春夏开始出现。马萨诸塞大学阿默斯特分校生物统计和流行病学副教授尼古拉斯·赖克收集了大约50个模型,并在新冠预测中心用了好几个月的时间测量了它们的准确性。赖克说:“友阳的模型准确度一直名列前茅。”
去年11月,顾友阳决定停止他的新冠死亡病例预测业务。赖克将各种预测混合在一起,发现最准确的预测来自一种“集成模型”,或者叫做合并数据。
赖克说:“友阳带着一种非凡的谦逊退出了。他看到其他模型做得很好,他在这里的工作也完成了。”在叫停该项目的一个月前,顾友阳预测美国11月1日的死亡人数将达到23.1万人。当11月1日到来时,美国报告的死亡人数为23.0995人。
IHME的穆雷对顾友阳的退出有自己的看法。他说,顾友阳的模型没有注意到冠状病毒的季节性,也没有注意到冬季病例和死亡的激增。穆雷说:“他在冬天让这种流行病消失了,我们早在5月就发现了病毒的季节性。”
穆雷说,顾友阳使用的机器学习方法在短期预测方面很有效,但在更大的范围内“不太善于理解正在发生的事情”。穆雷说,基于过去(死亡病例)的算法不能解释病毒变异,也不能说明疫苗对病毒有多大作用。说到他们自己的模型,穆雷认为IHME正确地预测了病毒的早期高峰,然后错误预测了死亡人数的急剧下降,直到模型调整以后才更好地反映了现实。穆雷说:“我们在4月的时候出了错,从那以后,我们是唯一一个始终保持正确的预测模型。”
编辑整合模型清单的赖克说,该组织在疫情后期的预测是合格的。赖克说:“早期,IHME的模式并没有达到它所宣传的效果。最近,它形成了一个合理的模式。我不会说这是最好的一种,但它是合理的。”
顾友阳拒绝回应穆雷关于他模型的评论。相反,他提供了数据科学家式的反讽恭维。顾友阳说:“我非常感谢克里斯·穆雷博士和他的团队所做的工作,没有他们,就不会有我今天的成绩。”
说道从这个故事中学到的一些东西,赖克提醒人们在下一次疫情到来时不要对早期的个人模型抱太大的信心。他对超过六到八周后的预测是否会非常准确持怀疑态度。理想情况下,疾控中心和其他机构将在未来会更快地组合模型并分发混合数据。赖克说:“我希望我们能够投入时间、精力和金钱来建立一个系统,以便在刚开始的时候,就有更多的模型来应对。我们必须自己做好准备,而不是到处去敲别人的门。”
经过一段时间的休息,27岁的顾友阳回到了纽约的公寓里,他重新回到了建模领域。这一次,他做了一个与美国有多少人感染新冠,疫苗推出的速度有多快,以及美国何时(如果可能的话)达到群体免疫等相关的预测,他的预测表明,到6月,大约61%的人口将拥有某种形式的免疫力,无论是通过疫苗还是通过感染。
在疫情发生前,顾友阳希望开始新的创业,可能是在体育分析领域。现在他考虑坚持做公共卫生。他希望找到一份可以产生巨大影响的工作,同时避免政治、偏见以及有时大型机构带来的包袱。他说:“这个领域有很多不足之处,可以由我这种背景的人改进,但我仍然不知道自己如何才能融入其中”。