使用 Neo4j 进行 COVID-19 接触者追踪
挑战
随着 COVID-19 在比利时蔓延,人口稠密的布鲁塞尔首都地区的数据分析师们陷入了困境。
迫切需要了解 COVID 感染群的发生地点,但他们从太多地方涌入的数据如此之多,以至于越来越难以看出这些数据是如何关联的。
数据概览:COCOM COVID-19 接触者追踪
- COVID-19 响应分诊时间缩短 90%
- 已识别的 COVID-19 感染群 5,000+
- 图规模: 618,332 节点,587,475 关系,6,231,160 属性
- 平台: Neo4j Enterprise Edition
共同社区委员会(COCOM)负责布鲁塞尔地区的所有公民和社区的健康预防事务。
在此意义上,尽管佛兰德语和法语社区负责多个集体事务,但他们有义务向 COCOM 的预防医学团队报告潜在的感染群。这也意味着所有布鲁塞尔公民的数据都将发送给布鲁塞尔 MP 团队进行分析。
由于所有次区域都收集了统一的数据,COCOM 分析师获得了足够的信息来创建一个大型 COVID 数据群,用于接触者追踪。
疫情带来海量数据
2020 年初,COCOM 的一个小型分析团队使用 Excel 宏来追踪海量数据。与世界各地其他团队一样,随着感染高峰期数据涌入,该团队很快不堪重负。COCOM 分析师 Ilona Hendrix 表示,Excel 文件每天都会用来自实验室和呼叫中心的新数据进行更新。
“但你可以想象,一段时间后,文件变得非常大,Excel 无法处理,”她说。“我们需要找到一个新的解决方案。”
一切都围绕着感染群
数据团队通过 Excel 中的数据了解了 COVID-19 的个别病例,但要控制疫情,他们需要一种方法来检测感染群并追踪疾病的传播。
像 Excel 这样的表格数据格式很像一个列表,病例之间的连接埋藏在数据单元格中。分析师们需要一种快速、可扩展的方法来追踪感染、识别感染群并阻止传播。
他们需要可视化连接并追踪阳性病例,以识别例如乘坐航班的人是否可能将病毒带回工作场所或学校。
解决方案
COCOM 团队从未面对过像 COVID-19 这样的情况。他们之前追踪过感染,也构建过接触者追踪工具,但这次的规模和紧迫性是前所未有的。
接触者追踪是一个图问题
COCOM 分析师 Hendrix 表示,一位同事建议她使用图技术来追踪她需要分析的大型数据集中的连接。
“我们有一位为我们工作的开发人员,他强烈推荐 [Neo4j]。他是个非常出色的人,”Hendrix 说。“当他向我们展示他们的网站时,我记得我们印象深刻,所以我们说,好吧,试试看。”
Hendrix 称自己并非技术专家,但她了解基本编码,并表示学习 Neo4j 的 Cypher 查询语言仅需掌握这些即可。
Neo4j 使得与医疗团队共享信息变得容易。她可以用 Cypher 查询数据库,然后以列表形式获取结果,随时与医疗团队共享。“如果他们需要更多个人信息,或者某个感染群的年龄,你也可以像那样制作你的列表,”她说。“这是一个非常灵活的工具。”
捕捉 COVID 感染群
COCOM 团队利用 Neo4j 迅速建立了一个 COVID-19 接触者追踪系统。
通过识别重叠时间段和地点的 COVID-19 阳性病例,并连接暴露点,该团队可以绘制出给定区域内 COVID 活动的可视化图。
这一切都由数据驱动。收到的第一个数据源是每个阳性检测的实验室结果。一些结果会包括循环阈值 (CT) 分数(传染性指标)以及疾病变种,例如 Delta 或 Omicron。在此基础上,通过添加称为循环阈值 (CT) 值(表示感染者携带病毒量)的数值,数据群得到了增强。将 CT 值添加到群中帮助医疗团队优先响应。
呼叫中心代理随后从每个阳性病例处收集数据,包括一个人乘坐的航班等详细信息。然后可以请求旅客定位表 (PLF),所有这些数据都在 Neo4j 图数据库中进行大规模连接。
在这里,Neo4j 浏览器显示了一个与家庭群组相关联的航班群组。粉色气泡显示了与群组中 COVID-19 感染者(蓝色显示)乘坐同一航班的所有其他乘客。

下一个图显示了两个数据群:一个 COVID-19 群和一个工作地点群。请注意,人员 8 (P8) 同时位于 COVID-19 群和工作地点群中。

利用连接数据将疫情响应速度提升 10 倍
COCOM 团队利用 Neo4j 创建了一个高效的 COVID-19 接触者追踪系统。
Hendrix 表示,将如此多的数据集中在一处并能够快速分析以识别感染群并进行调查或派遣医务人员响应,这大大压缩了 COVID 响应的整体分诊时间,将其缩短了 10 倍。
“因为所有信息都已经关联起来,并且我们随时可以获取,这大大减少了数据分析师的工作量,”她说。“以前我每个感染群需要花费大约 10 分钟,现在只需要大约 1 分钟。”
接触者追踪的未来
随着 COVID-19 创造了一个真实的危机响应情境,数据团队通过 Neo4j 进行了一次非常好的概念验证实践。
“当我们开始使用 Neo4j 的界面时,很高兴看到,‘好的,这个人通过这个群组与那个人关联,例如,一个组织、一个工作地点或一个航班,”Hendrix 说。“图谱使得理解不同人之间的关联以及最终如何形成一个群组变得容易得多。”
而且这些好处超越了 COVID-19。“Neo4j 也让我们非常容易地调查我们获得的所有数据源,”Hendrix 说。
随着 COVID-19 大流行的起伏,数据团队正在评估他们的策略和流程并进行改进。他们还在研究如何使用 Neo4j 追踪其他疾病。