媒体中心

【第四范式】第四范式联合周志华团队等搭建新冠病毒自学习模拟器

时间:2020-3-8  来源:未知

经此一役,中国疾控体系的数字化和智能化改革势在必行,我们也拭目以待。

 

「流动、汇集,不断的流动、不断的汇集……在幅员辽阔的中国,南北城市远隔千里,病毒的传播或许只在数小时的飞行之后。」

纪录片《非典十年祭》这样形容当时 SARS 病毒的蔓延;17 年后,当年的病毒换了身行头,故伎重演,来势汹汹。

「打赢疫情防控阻击战」,响亮的口号,频频在头版头条里响起,但新冠病毒却以人类未知的火速势头燎原,占得先机。要取得胜利,必须找到更为精准而高效的武器。

你瞧,一群手握机器学习、大数据「武器」的技术队伍已经默默登场,为恐慌的人类开启「上帝视角」,在数十个日夜里测绘出各种潜在威胁的可能性,巧妙地避开了与病毒的狭路相逢。

经此一役,疾控体系数字化和智能化的价值被见证,后续相应的改革与升级也将势在必行。

当现实世界里关于新冠病毒的多维度数据被深度挖掘出来,源源不断地投喂进自洽自足的机器学习平台,一套仿照现实世界运转机制的「孪生系统」因此而构建成型。

人类在屏幕前通过鼠标键盘,在模拟的数字世界里,紧锣密鼓地狙击病毒:追踪传染路径、筛查易感人群、推演疫情发展……每一步都被人工智能演绎地淋漓尽致。

基于机器自学习搭建的传染病疫情演进预测系统示意图

它是哮天犬「天地无极、万里追踪」的筛查追踪功能,在微观的人口流动中定位潜在传染源和高风险人群(携带新冠病毒而不自知)。

也是《模拟人生》里的现实世界模拟器,充分考虑复杂环境下的各种突发因子(交通管制/复工时间/药物设施等),在模拟器上修改相关变量,进而推演出疫情狙击中人工干预的最优政策。

第四范式联合南京大学 LAMDA 研究所和苏北人民医院组队,针对疫情推出的智能疫情防控系统,正是基于这样一套思路。

一 CEO 接下「神秘」任务

除夕夜,第四范式的微信群里,新年祝福刷屏之后,突然跳出一则动员信息,打乱了节奏。

原来,公司被推荐加入了一个来自上级的「特殊」项目,由 CEO 戴文渊亲自承接。项目与疫情防控有关,刚开始还有点「神秘」。

经公司高层动员,项目是为疫情做贡献,很快便有几十人主动参与进来。

随后,项目总负责人涂威威邀请了以周志华教授为首的南京大学 LAMDA 研究所、苏北人民医院的十数名专家加入项目组,整个系统项目组已接近百人规模。他们的任务是为疫情防抗搭建一套基于机器学习技术的精准防控决策支持系统。

第四范式,全称为 第四范式 (北京) 技术有限公司,是一家于 2014 年成立的人工智能技术与服务提供商,创始团队来自百度凤巢推荐系统、今日头条推荐系统等核心技术团队。

第四范式擅长搭建复杂的机器学习模型平台,并将之业务和产品化。早在 2016 年,第四范式就发布了相关产品「第四范式先知」——一套企业级的人工智能 PaaS 平台,能力覆盖人工智能项目从应用开发、运行到管理的全生命周期。

据 IDC 2019 年发布的《中国机器学习开发平台市场评估》报告显示,第四范式、阿里、百度、AWS、腾讯、微软等位列领导者象限。其中,作为 AI 独角兽的第四范式,占据了中国市场的最大份额。

二 当机器学习遇上传染病学

项目组分设有前端、后端两个部分。前端由王巍负责,王巍今年和家人留京过春节,无离京记录,健康状况良好,成为疫情下的最佳前端人选。

事实上,项目前期前端只有他一人在现场。接到任务后,王巍每天生活就是朝八晚八,两点一线。

早晨 8 点前,王巍需要赶到北京项目组安排的集中办公点。测过体温,身份验证之后,进入井然有序的办公区间,口罩下的人脸只剩下一双双专注的双眼,紧盯电脑屏幕。

春节期间,疫情仍处于上扬势头,政策调控方的需求变化多端,各方数据滚滚而来,王巍主要承担需求和任务的汇总梳理工作,将其有节奏有条理地反馈给后端团队,以保证将有限的资源投入关键领域。

「数据更新频率很快,一般来说,一小时至半天左右更新。所以我们的响应速度也需要比较快」王巍说。

「下班后,他还要和我们对需求,压力是比较大的」,项目总负责人涂威威补充,不断更新汇总的宏观数据,对于后端合理地设计模型,有效调用算法起到关键性作用。

如果说,前端的压力主要聚焦在极短的任务交付期限中,那么后端的压力则贯穿始终。

涂威威同时也是范式后端数十人科学家的领队,主要通过远程办公协同,没有严格的固定工作时间点——往往意味着要随时待命,模型调到凌晨 2-3 点是家常便饭。

协同过程中,涂威威与南京大学 LAMDA 研究所詹德川、俞扬教授和国家 GCP 机构办主任余果的四人工作微信群每天都会从早晨密集讨论到深夜。

「项目背后的指导老师周志华教授也全程在各方面为项目组提供细致的指导,很多时候周老师会与我们沟通工作到凌晨三四点。」涂威威介绍。

最初,这帮科学家的想法很简单——让技术产生价值;然而,好想法在实际运用中却得不到好结果。

由于缺乏传染病学背景知识,科学家团队采用了一组固有的传染系数,套用在不同地区、不同场景上,但却与实际数据相去甚远。

随着团队与一线医学专家深入交流和探讨,问题才逐渐浮出水面。

「传染系数实际受到多种因素影响,」涂威威解释道,「比如飞机里的传染率其实比火车低很多,因为空气是循环的;又如经济发达地区,居民防护意识较强,传染率会较低……」

飞机不同座位传染率(图源:国家地理中文网)

基于此,团队替换掉了此前的固有传染系数,转而构建一套传染模型,综合考虑地区、场景、时间等各种实际因素。根据机器学习结果,团队再进一步找医学专家验证及优化,依此往复。

据涂威威介绍,经过对全国各省建模,自学习模拟器相对改进版传染病模型(SEIR 模型)的误差平均降低 90%,与实际数据出现比较好的拟合状态。

「疫情目前的发展轨迹都在印证了之前推演结果,在一定程度上也消除了我们自身对疫情的焦虑,」他谈道。

此外,系统团队每天会定期与宏观调控部门的技术人员远程连线,在结果层面、方法论上进行探讨,针对系统预测值和实际值的差距进行优化。

「在这个过程中,产品的迭代以小时为单位计算——每隔两三个小时,相关部门就会要求更新结果,3-5 天产品实现较大提升。」说到这,涂威威的语速不自觉地加快。

三 战疫侦察三部曲

追踪、筛查、推演

如果消灭疫情是场「阻击战」,从防控前期的病毒传播分析到易感人群的精准筛查再到后期推演疫情,为决策层制定政策并影响疫情发展做支持,都必须做到「快且准」,小到预测某个地区的传染率,大到提前为某省市颁布整体防控决策做预演辅助。

为此,这只由人工智能专家和医学专家组建的联合团队,从复杂多变的物理世界中挖掘多维度数据,利用机器学习技术构建数据驱动的新冠病毒传播数字孪生系统。

这就像一套现实世界里的病毒传播模拟器,可以模拟出各项与疫情相关的变量、指标(交通管制/复工时间/药物设施等),以实现精准而有效的传染源定位、人群筛查以及疫情推演。

该套系统依托于第四范式的底层人工智能 PaaS 平台,针对疫情场景进行了应用升级,在平台的核心算法、功能组件和底层技术(如自动机器学习技术)等方面已经有了成熟的经验保障。

针对疫情发展的不同阶段和实际场景需求,系统团队提出了三套方案应用,分别对应追踪传播路径、筛查高危人群、疫情态势推演。

1、精准防控第一步:追踪传播路径

在疫情发生后,病毒传染路径分析极为关键,系统将模拟出一套潜在传染的关系网,在关系网中找到可能的传播路径协助精准防控。

此外,第四范式还构建了可学习的事件回放模拟器,及时发现并复盘潜在传染路径以及传染方式,帮助防疫部门快速切断疫情的蔓延,同时反哺到病理学相关研究,提供研究方向上的辅助。

2、精准防控第二步:筛查高危人群

在防控关键阶段,核心是要找到潜在的高风险人群。为此,涂威威团队构建了一套精准筛查模型,利用 AI 技术丰富了现有的防控筛查规则模型,进一步提升人群的覆盖面以及筛查的召回率与准确率。

医学专家建议的「ABCD」人群分类,A 是指有武汉接触史的人,B 是指 A 出门在公共场所中遇到的所有陌生人,C 是指 A 接触到的熟人,D 是指没有外出的安全市民。

传统的筛查规则系统是通过判断是否和确诊或疑似人员在同一地区同时出现,其准确度还有很大的提升空间。

比如,由于 A、C 两类都容易识别并进行隔离,B 类人群由于与 A 互不认识,很有可能被感染而不自知,引发更大范围的疫情感染。「而且病毒传染方式多变,受天气、空气流通性、接触方式等各方面因素综合影响,所以需要一套更为『精准』的高维筛查模型。」涂威威说道。

3、精准防控第三步:推演疫情发展,提供宏观决策预判

对于决策者,知晓疫情变化趋势、预判拐点成为更加紧要的事情,而且从宏观决策来看,国家需要对全国疫情精准推演,以减少疫情蔓延。

而与此同时,众多现实因素干扰使得传统理想化模型预测疫情不再可行。

为此,系统团队采用了高维机器学习技术以及多维度的数据,构建出更细粒度、更接近实际情况的可学习的省市区县级数字孪生系统。

与过去基于人写规则的数字孪生系统不同,基于机器学习、高维非梯度优化等技术的系统最大亮点在于数据驱动,从数据中学习出数字孪生系统,可就关键决策一旦实施所带来的影响进行精准的仿真预判,为制定实用有效的防控政策提供重要依据。

「大众经常可以看到限制聚众、封路、封闭小区等加大防控力度的政策,或者复工复产、降低响应机制等级的风向变化,这套系统就可以有效辅助类似决策」,涂威威解释道。

据了解,该套解决方案除了为有关部门提供防控支持之外,已经下沉到地方政府,帮助更多部门在疫情一线提升效率、辅助决策,协助企业做好微观防控。

接下来,全民进入复工复产状态,方案也进行了针对性功能调整——如何在控制疫情和恢复经济中应寻求平衡是关键。比如,复产排班的合理性,针对工作区域划分危险等级。

四 疫情之后,我们如何复盘?

病毒虽然疏离了我们的物理距离,却好像又拉近了一些东西,比如疫情之下,我们共同见证的抵抗,共同追问的话题,共同反思的漏洞。

时至今日,我们完全有理由相信,疫情终将平息,但一场大病之中暴露的问题和反思总结才刚刚开始。

新冠疫情发生以来,疫情防治工作在早期经历了民众质疑与信任危机,面对爆发突然、传染性极强的全新冠状病毒,前期近一个月的防控措施效果有限。

在涂威威看来,未来,国家乃至全球层面,基于数据驱动的疾控系统一定会进一步完善。而这套全民抗疫过程中所沉淀出的方案、经验和技术也将在后续人类与病毒共生的岁月里发挥出更大的价值。

经此一役,中国疾控体系的数字化和智能化改革势在必行,我们也拭目以待。