网友成功预测上海近三日新增病例数,新冠疫情预测究竟靠不靠谱?

微博上有位网友通过自己的计算,成功预测了26、27日的上海新增病例(包括确诊和无症状)数——写文章时我看了下,28日的数据(29日上午公布)和他的估算也差得不多。

作为一个数据爱好者,想说说这个预测有没有道理。

首先来说下他的计算方式,e^(x*d+y+ε)=确诊数。这是一个指数模型算式,简单来说,作者从一段时期的数据(确切的说是12-15日这14天)推测,新增阳性病例是在按一个规律性的指数增长,然后他自己设计了回归模型,算出平均每天增长28%这个数字。

这个算法有没有道理呢?其实如果对12-25日的数据作一个观测,肉眼就可发现每日新增病例数的增长率,围绕30%附近(下图红色直线)波动。如果相信这是一种规律的话,算出来的增长指数差异不大。比如我用另一种方法算了一下,x1=[ln(P[25日])-ln(P[12日])]/13,(这个公式没有用回归,比较粗暴),大概能算出新增病例每天增长31%,如果我们用这个数字预测26日和27日,一个是2975例,一个是3516例,和实际数字2676和3500差距也不是很大,27日的预测甚至比这位网友还更准一点。

但如果我们把这根曲线再往前拉一拉,看2月底到3月初的数值(红框),就会发现之前的新增病例日增长率要高得多,而且有一个明显下降的过程。

这首先说明,相比疫情之初,我们的防控手段起到了效用,有效压低了R0值

其次,最近这半个月的增长指数比较稳定,是不是就能预测之后的数据?

这里边有两个问题,一是这个指数能不能代表全市的情况?我并不能完全肯定。一个猜测是检测人数在按指数级增长(管控范围在扩大),而病例在被检测人数中比例是比较稳定的,不过,这只能代表病例在检测人群中的比例,不能代表病例在全部人口中的比例。这个我们可以看一下下图,在闭环隔离管控内的检测阳性数值,要大大高于风险人群筛查,而从绝对人数上,应该是风险人群的数量更大。因此我认为全市性的病毒传播要远低于管控区的传播,4月5日以后我们可以来看下这个推测对不对。

第二个问题,即便相信这个指数代表着全市性的规律,那么是不是能预测更久的数据?比如按这位网友推测,4月1日上海的每日新增病例就会超过万例,4月3日达到1万9千多例。

说实话我是不敢这么大胆的。首先是这个用过去14天数据反推的模型实在太简单了,完全没有引入其他变量,比如我上面说的检测范围。其次,14天的时间太短了,明显忽视了防控手段有一定的滞后效应。就大家熟知的例子而言,大规模管控措施的实行成功令武汉的传染数从2.35降到接近于1,花了约4个月的时间,而当中也经历过病例稳定增长的瓶颈期。

经验告诉我们,新冠疫情在一个人口庞大的区域的发展趋势,是很难预测的。实际上2020年疫情爆发以来,全球各国医学专家弄出来的模型给出的预测结果,都不是太靠谱,有时上一周还很准确的模型,下一周可能就会谬以千里。

为什么新冠疫情很难预测?这是因为第一,任何基础的指数,其微小的差距在一定时间后也会变得很大。如果R0分别等于2.9和3.1,那么传播10轮对应的累计确诊就分别是22142和39030人。随着传播轮数的增加,结果的差异性会放得更大。

其次,模型很难对曲线拐点给出准确的预测,拐点指的是峰值、突然变陡或变缓。用一句俗话说,量变才能达到质变。但在现实中,除非完全躺平,不然影响疫情的变量实在太多了,比如防疫措施的力度,方式,个人行为变量,社会经济条件包括医疗,住宿,交通等。变量越多,模型越复杂,不同模型计算出的“质变”拐点差异就越大。

预印本论文网站medRxiv 上有过一篇256位作者撰写的关于新冠预测的论文,这些作者都是全球各地做新冠预测模型的研究者,文章称,模型所预测的周期越长,其准确性就越低:与对未来一周的预测相比,对未来四周的预测错误率升高了一倍,四周被认为是有实际意义的短期预测时长的上限;如果把对未来二十周的预测结果也拿来比的话,其错误率是一周的五倍。

从这个意义上来说,预测对了两三天的数据,真的不算什么。

最后想说,作为一个野生数据工作者,略知统计和建模并不是完全客观的存在,会因为研究者的立场和先验知识而呈现出截然不同的结果,所以,对于疫情预测这样复杂的工作,应该心存更多的敬畏。(本文数据整理 连俊翔)

栏目主编:张陌、尤莼洁 文字编辑:连俊翔

来源:作者:尤莼洁

举报
评论 0