网友成功预测上海近三日新增病例数，新冠疫情预测究竟靠不靠谱？-今日头条

微博上有位网友通过自己的计算，成功预测了26、27日的上海新增病例（包括确诊和无症状）数——写文章时我看了下，28日的数据（29日上午公布）和他的估算也差得不多。

作为一个数据爱好者，想说说这个预测有没有道理。

首先来说下他的计算方式，e^(x*d+y+ε)=确诊数。这是一个指数模型算式，简单来说，作者从一段时期的数据（确切的说是12-15日这14天）推测，新增阳性病例是在按一个规律性的指数增长，然后他自己设计了回归模型，算出平均每天增长28%这个数字。

这个算法有没有道理呢？其实如果对12-25日的数据作一个观测，肉眼就可发现每日新增病例数的增长率，围绕30%附近（下图红色直线）波动。如果相信这是一种规律的话，算出来的增长指数差异不大。比如我用另一种方法算了一下，x1=[ln(P[25日])-ln(P[12日])]/13，（这个公式没有用回归，比较粗暴），大概能算出新增病例每天增长31%，如果我们用这个数字预测26日和27日，一个是2975例，一个是3516例，和实际数字2676和3500差距也不是很大，27日的预测甚至比这位网友还更准一点。

但如果我们把这根曲线再往前拉一拉，看2月底到3月初的数值（红框），就会发现之前的新增病例日增长率要高得多，而且有一个明显下降的过程。

这首先说明，相比疫情之初，我们的防控手段起到了效用，有效压低了R0值。

其次，最近这半个月的增长指数比较稳定，是不是就能预测之后的数据？

这里边有两个问题，一是这个指数能不能代表全市的情况？我并不能完全肯定。一个猜测是检测人数在按指数级增长（管控范围在扩大），而病例在被检测人数中比例是比较稳定的，不过，这只能代表病例在检测人群中的比例，不能代表病例在全部人口中的比例。这个我们可以看一下下图，在闭环隔离管控内的检测阳性数值，要大大高于风险人群筛查，而从绝对人数上，应该是风险人群的数量更大。因此我认为全市性的病毒传播要远低于管控区的传播，4月5日以后我们可以来看下这个推测对不对。

第二个问题，即便相信这个指数代表着全市性的规律，那么是不是能预测更久的数据？比如按这位网友推测，4月1日上海的每日新增病例就会超过万例，4月3日达到1万9千多例。

说实话我是不敢这么大胆的。首先是这个用过去14天数据反推的模型实在太简单了，完全没有引入其他变量，比如我上面说的检测范围。其次，14天的时间太短了，明显忽视了防控手段有一定的滞后效应。就大家熟知的例子而言，大规模管控措施的实行成功令武汉的传染数从2.35降到接近于1，花了约4个月的时间，而当中也经历过病例稳定增长的瓶颈期。

经验告诉我们，新冠疫情在一个人口庞大的区域的发展趋势，是很难预测的。实际上2020年疫情爆发以来，全球各国医学专家弄出来的模型给出的预测结果，都不是太靠谱，有时上一周还很准确的模型，下一周可能就会谬以千里。

为什么新冠疫情很难预测？这是因为第一，任何基础的指数，其微小的差距在一定时间后也会变得很大。如果R0分别等于2.9和3.1，那么传播10轮对应的累计确诊就分别是22142和39030人。随着传播轮数的增加，结果的差异性会放得更大。

其次，模型很难对曲线拐点给出准确的预测，拐点指的是峰值、突然变陡或变缓。用一句俗话说，量变才能达到质变。但在现实中，除非完全躺平，不然影响疫情的变量实在太多了，比如防疫措施的力度，方式，个人行为变量，社会经济条件包括医疗，住宿，交通等。变量越多，模型越复杂，不同模型计算出的“质变”拐点差异就越大。

预印本论文网站medRxiv 上有过一篇256位作者撰写的关于新冠预测的论文，这些作者都是全球各地做新冠预测模型的研究者，文章称，模型所预测的周期越长，其准确性就越低：与对未来一周的预测相比，对未来四周的预测错误率升高了一倍，四周被认为是有实际意义的短期预测时长的上限；如果把对未来二十周的预测结果也拿来比的话，其错误率是一周的五倍。

从这个意义上来说，预测对了两三天的数据，真的不算什么。

最后想说，作为一个野生数据工作者，略知统计和建模并不是完全客观的存在，会因为研究者的立场和先验知识而呈现出截然不同的结果，所以，对于疫情预测这样复杂的工作，应该心存更多的敬畏。（本文数据整理连俊翔）

栏目主编：张陌、尤莼洁文字编辑：连俊翔

来源：作者：尤莼洁

网友成功预测上海近三日新增病例数，新冠疫情预测究竟靠不靠谱？

头条热榜

精彩视频