基于ML的COVID-19流行病学框架

发布时间:2021-11-29编辑:RainNight阅读(150)

    在过去20个月中,COVID-19大流行对日常生活产生了深远影响,给规划供需的企业带来了后勤挑战,并为致力于支持社区及时应对公共卫生的政府和组织带来了困难。虽然已经有经过充分研究的流行病学模型可以帮助预测COVID-19病例和死亡,以帮助应对这些挑战,但这种大流行产生了前所未有的实时公开数据,这使得使用更先进的机器学习技术来改善结果成为可能。

    在”对人工智能增强流行病学进行前瞻性评估以预测美国和日本的COVID-19”中,我们继续了我们以前的工作[1,2,3,4],并提出了一个框架,旨在模拟某些政策变化对COVID-19死亡和病例的影响,例如学校关闭或美国州的紧急状态, 美国县级和日本县级,仅使用公开可用的数据。我们对公众预测进行了为期2个月的前瞻性评估,在此期间,我们的美国模型在COVID19预测中心上与所有其他33个模型并驾齐驱或优于所有其他模型。我们还发布了对美国和日本受保护子群体表现的公平性分析。与 Google 帮助应对 COVID-19 的其他举措[1, 2, 3] 一样,我们将基于这项工作向公众免费发布每日预测[我们,ja]和BigQuery。

    file file

    流行病学家已经研究了传染病的模型

    几十年。区室模型是最常见的,因为它们简单,可解释,并且可以有效地适应不同的疾病阶段。在区室模型中,个体根据其疾病状态(例如易感,暴露或恢复)分为相互排斥的组或区室,并且对这些区室之间的变化率进行建模以适合过去的数据。人群被分配到代表疾病状态的区室,随着疾病状态的变化,人们在状态之间流动。

    在这项工作中,我们提出了对易感 - 暴露 - 感染 - 去除(SEIR)类型区室模型的一些扩展。例如,易感人群暴露后会导致易感隔室减少,暴露区室增大,其发生率取决于疾病传播特征。COVID-19相关结局的观测数据,如确诊病例、住院和死亡,用于训练区室模型。

    file

    我们的框架提出了许多新颖的技术创新:

    1. 习得的转换率:我们不是使用静态速率来映射所有位置和时间的隔间之间的转换,而是使用机器学习的速率来映射它们。这使我们能够利用大量可用数据和信息信号,例如Google的COVID-19社区流动性报告,医疗保健供应,人口统计和计量经济学功能。
    2. 可解释性:我们的框架为决策者提供了可解释性,通过其区室结构提供有关疾病传播趋势的见解,并建议哪些因素可能对推动区室过渡最为重要。
    3. 扩大隔间:我们增加了住院,ICU,呼吸机和疫苗隔间,并展示了有效的培训,尽管数据稀少。
    4. 跨位置共享信息:与适合单个位置相反,我们为一个国家/地区(例如,>3000个美国县)中的所有位置提供了一个单一模型,具有不同的动态和特征,并且我们展示了跨位置传输信息的好处。
    5. Seq2seq建模:我们使用序列到序列模型,并采用新颖的部分教师强迫方法,以最大限度地减少未来误差的放大增长。

    预测准确性

    每天,我们都会训练模型来预测未来28天的COVID-19相关结果(主要是死亡和病例)。我们报告了全国评分和地理位置级别评分的平均绝对百分比误差(MAPE),包括 COVID-19 相关结果的累积值和每周增量值。

    我们将我们的框架与COVID19预测中心的美国替代方案进行了比较。在 MAPE 中,我们的模型优于所有其他 33 个模型,除了一个模型 — 集合预测,其中还包括模型的预测,其中差异在统计上并不显著。

    我们还使用预测不确定性来估计预测是否准确。如果我们拒绝模型认为不确定的预测,我们可以提高我们发布的预测的准确性。这是可能的,因为我们的模型具有经过良好校准的不确定性。

    file

    模拟大流行管理政策和策略的假设工具除了了解过去数据中最可能的情况外,决策者还对不同的决策如何影响未来的结果感兴趣,例如,了解学校关闭,行动限制和不同疫苗接种策略的影响。我们的框架允许通过将所选变量的预测值替换为反事实对应物来进行反事实分析。我们的模拟结果强化了过早放松非药物干预(NPI)的风险,直到疾病的快速传播减少。同样,日本的模拟表明,在保持高疫苗接种率的同时保持紧急状态可以大大降低感染率。

    file

    file

    公平性分析

    为了确保我们的模型不会创建或加强不公平的偏见决策,与我们的AI原则一致,我们通过量化模型在受保护的子组中的准确性是否更差,分别对美国和日本的预测进行了公平性分析。这些类别包括美国的年龄、性别、收入和种族,以及日本的年龄、性别、收入和原籍国。在所有病例中,一旦我们控制了每个亚组中发生的COVID-19死亡和病例数,我们就没有在这些组中表现出一致的错误模式。

    file

    实际用例

    除了定量分析以衡量模型的性能外,我们还在美国和日本进行了结构化调查,以了解组织如何使用我们的模型预测。总共有七个组织就该模型的适用性做出了以下结果的回应。

    • 组织类型: 学术界 (3), 政府 (2), 私营企业 (2)
    • 主要用户职位:分析师/科学家(3),医疗保健专业人员(1),统计学家(2),管理(1)
    • 位置: 美国 (4), 日本 (3)
    • 使用的预测: 确诊病例 (7), 死亡 (4), 住院 (4), 重症监护病房 (3), 呼吸机 (2), 感染 (2)
    • 模型用例:资源分配(2),业务规划(2),情景规划(1),对COVID传播的一般了解(1),确认现有预测(1)
    • 使用频率: 每日 (1), 每周 (1), 每月 (1)
    • 模型有帮助吗?: 是 (7)

    举几个例子,在美国,哈佛全球健康研究所和布朗公共卫生学院利用这些预测来帮助制定COVID-19检测目标,媒体使用这些目标来帮助公众了解情况。美国国防部使用这些预测来帮助确定在哪里分配资源,并帮助考虑具体事件。在日本,该模型用于做出业务决策。一家在20多个都道府县设有商店的大型多县公司利用这些预测来更好地规划其销售预测,并调整商店营业时间。

    限制和后续步骤

    我们的方法有一些限制。首先,它受到可用数据的限制,只要有可靠,高质量的公共数据,我们才能发布每日预测。例如,公共交通的使用可能非常有用,但这些信息并不公开。其次,由于区室模型的模型容量存在局限性,因为它们无法对Covid-19疾病传播的非常复杂的动力学进行建模。第三,美国和日本之间的病例数和死亡人数分布差异很大。例如,日本的大多数COVID-19病例和死亡人数都集中在其47个县中的一些县,其他县的值较低。这意味着,我们的县级模型经过培训,在日本所有县中都表现良好,通常必须在避免过度适应噪音的同时,从这些相对没有COVID-19的县获得监督之间取得微妙的平衡。

    我们更新了模型,以考虑疾病动态的巨大变化,例如疫苗接种数量的增加。我们还在扩大与市政府、医院和私人组织的新接触。我们希望我们的公开发布继续帮助公众和政策制定者应对当前大流行的挑战,我们希望我们的方法在这次和未来的健康危机中对流行病学家和公共卫生官员有用。

Collect from 雨夜的博客 雨夜的博客