使用 Neo4j 进行 COVID-19 接触者追踪

挑战

当 COVID-19 在比利时蔓延时,人口稠密的布鲁塞尔首都地区的數據分析师发现自己陷入了困境。

迫切需要了解 COVID 感染的聚集地,但他们从各个地方接收了如此多的数据,以至于越来越难以了解这些数据的关联。


数据:COCOM COVID-19 接触者追踪
  • COVID-19 应急反应分流时间缩短 90%
  • 已识别 COVID-19 感染聚集地 5,000+
  • 图规模:618,332 个节点,587,475 个关系,6,231,160 个属性
  • 平台:Neo4j 企业版

布鲁塞尔共同体委员会(COCOM)负责布鲁塞尔地区的卫生预防事宜,涉及该地区所有公民和集体。

在这个意义上,尽管佛兰德语和法语社区负责若干集体,但他们有义务向 COCOM 的预防医学团队报告潜在的聚集地。这也意味着所有布鲁塞尔公民的数据都被发送到布鲁塞尔 MP 团队进行分析。

由于所有子区域都收集了统一的数据,COCOM 分析师拥有足够的信息来创建一个大型 COVID 数据集群,用于接触者追踪。

疫情带来了大量数据


在 2020 年初,COCOM 的一个小分析团队使用 Excel 宏来跟踪海量数据。与世界各地的人一样,该团队在感染高峰期间随着更多数据涌入而迅速不堪重负。COCOM 分析师 Ilona Hendrix 说,每天 Excel 文件都会更新实验室和呼叫中心的新数据。

“但正如您所想象,过了一段时间,文件就变得非常大,Excel 无法处理,”她说。“我们需要一个新的解决方案。”

重点在于集群


数据团队通过 Excel 中的数据了解了单个 COVID-19 病例,但为了控制疫情爆发,他们需要一种方法来检测感染集群并追踪疾病的传播。

像 Excel 这样的表格数据格式非常像一个列表,病例之间的联系隐藏在该数据中的单元格中。分析师需要一种快速可扩展的方法来追踪感染、识别集群并阻止传播。

他们需要可视化连接并追踪阳性病例,以确定例如,飞机上的乘客是否将病毒带回工作场所或学校。

解决方案

COCOM 团队从未面临过像 COVID-19 这样的情况。他们之前追踪过感染,并构建了接触者追踪工具,但这次的规模和紧迫性是前所未有的。

接触者追踪是一个图问题


COCOM 分析师 Hendrix 说,一位同事建议她使用图技术来追踪需要分析的大型数据集中的连接。

“我们有一位为我们工作的开发人员,他真的推荐了 [Neo4j]。他是一位非常聪明的人,”Hendrix 说。“当他向我们展示他们的网站时,我记得我们印象深刻,所以我们说,好吧,让我们试试吧。”

Hendrix 并不把自己描述为一个技术精通的人,但她了解基本的编码,她说这足以让她学会 Neo4j 的 Cypher 查询语言。

Neo4j 使与医疗团队共享信息变得容易。她可以在 Cypher 中查询数据库,但以列表的形式获取结果,方便与医疗团队共享。“如果他们需要更多个人信息,或者某个集群的年龄,你也可以制作这样的列表,”她说。“这是一个非常灵活的工具。”

捕获 COVID 集群


COCOM 团队使用 Neo4j 快速创建了一个 COVID-19 接触者追踪系统。

通过识别在重叠时间段和地点出现的 COVID-19 阳性病例,然后连接暴露点,该团队可以绘制出给定区域内 COVID 活动的可视化图。

这一切都由数据驱动。收到的第一个数据源是每个阳性检测的实验室结果。一些结果将包括循环阈值 (CT) 分数,一种衡量感染性的指标,以及疾病变异,例如 Delta 或 Omicron。从那里,通过添加一个称为循环阈值 (CT) 值的数字来增强数据集群,该值指示感染者体内有多少病毒。在集群中添加 CT 值有助于医疗团队优先考虑响应。

然后,呼叫中心代理从每个阳性病例收集数据,包括航班等详细信息。然后可以请求乘客定位表格 (PLF),并且所有这些数据都在 Neo4j 图数据库中大规模连接。

这里,Neo4j 浏览器显示了一个与家庭集群链接的航班集群。粉红色的气泡显示了与集群中 COVID-19 患者乘坐同一航班的所有其他乘客,这些患者以蓝色显示。

clusters in flight data

由 COVID 阳性乘客连接到家庭集群 (蓝色) 的航班集群 (粉红色)下一个图显示了两个数据集群:一个 COVID-19 集群和一个工作地点集群。请注意,Person 8 (P8) 同时位于 COVID-19 集群和工作地点集群中。

Person 8 links the COVID-19 cluster and the work location cluster

Person 8 连接了 COVID-19 集群和工作地点集群连接数据使疫情响应速度提高 10 倍

COCOM 团队使用 Neo4j 创建了一个有效的 COVID-19 接触者追踪系统。

将如此多的数据集中在一个地方,并能够快速分析这些数据以识别感染集群并通过调查或派遣医务人员来做出响应,压缩了 COVID 响应的整体分诊时间——Hendrix 说,缩短了 10 倍。

“因为所有信息都已经链接,并且我们随时可以获得,它显着减少了数据分析师的工作量,”她说。“之前,我需要花费大约 10 分钟来处理每个集群,现在大约需要 1 分钟。”

接触者追踪的未来


随着 COVID-19 造成现实生活中的危机响应情况,数据团队使用 Neo4j 进行了一个非常好的概念验证演练。

“当我们开始使用 Neo4j 的界面时,看到“好吧,这个人通过这个集群与那个人联系,例如,一个组织、一个工作地点或一个航班”真的很好,”Hendrix 说。“该图使了解不同人之间的联系以及最终如何形成集群变得容易得多。”

并且这些益处超出了 COVID-19。“Neo4j 也让我们很容易调查我们获得的所有数据源,”Hendrix 说。

随着 COVID-19 大流行的消退和波动,数据团队正在评估他们的策略和流程,并进行改进。他们还在研究如何使用 Neo4j 追踪其他疾病。

下载案例研究