Care-for-Rare 利用 Neo4j 识别罕见儿童疾病
冯·豪纳儿童医院利用多组学 Neo4j 图数据库和机器学习模型,连接儿科患者与 8,000 多种罕见病
32 亿
人类基因组中的 DNA 核苷酸
8,000
通过临床知识图谱 (CKG) 追踪和识别的罕见病
2,500
迄今为止多组学数据库中的儿童数量,全球范围内的扩展工作正在进行中
在德国,每年有超过 2,000 名儿童死于罕见病,这一数字在全球范围内急剧上升。诊断之旅就是一场与时间赛跑:平均需要四到八年才能查明罕见病的病因,而 30% 的受影响儿童活不到五岁。
关爱罕见病基金会于 2009 年在慕尼黑冯·豪纳儿童医院成立,旨在改变这一现状。该基金会的全球联盟致力于识别罕见病的基因原因并开发靶向治疗方法。其工作为全球儿童改善治疗可及性和结果带来了希望。
医院的医生利用精准医疗定制治疗方案,有效靶向这些难以捉摸的疾病。研究人员使用一种名为深度表型的方法来记录儿科患者的罕见基因突变,将详细的疾病表现与被称为单核苷酸多态性 (SNPs) 的微小基因变异联系起来。每个 SNP(32 亿个 DNA 核苷酸中一个微小的变异)都可能将一个孩子与数千种罕见病中的一种联系起来。尽管面临这些困难,该医院成功地在其 30% 的患者中识别出基因变异,从而实现准确诊断和量身定制的治疗方案。对于年轻患者而言,多争取的一个月可能意味着及时治疗与不可逆转的恶化之间的区别。
对于剩余 70% 的患者,关爱罕见病基金会部署了一种基因组分析解决方案,称为临床知识图谱 (CKG),目前正处于概念验证阶段。该解决方案基于 Neo4j 的企业图数据库构建,随着数据量的增长,它成功识别罕见病的可能性也会提高。这个新兴的多组学领域结合了多个生物数据集(如基因组、蛋白质组和转录组),为新的、可能挽救生命的治疗铺平了道路。关爱罕见病基金会的生态系统方法还解决了公平差距,使更多国家的更多儿童能够获得重要的诊断服务。
在使用这个概念验证知识图谱之前,医生和科学家们难以整合和分析这些多样化的数据集,包括
- 来自 RNA 的转录组数据
- 来自细胞蛋白质的蛋白质组数据
- 病史
- 血液和尿液检测值
- 医生笔记
- 药物靶点、蛋白质及其他属性
每一个新的数据源都有可能带来突破;但将这些庞大且不同的数据点在关系数据库中连接起来,需要复杂的 SQL 查询,难以持续维护。“作为一家儿童医院,我们不开发软件”,路德维希-马克西米利安大学 (LMU) 冯·豪纳儿童医院生物 IT 主管 Daniel Weiss 说道。“我们需要一种能最大限度减少耗时手动干预的技术。”
关系数据库难以管理医疗数据中密集、互连的结构。这些数据库需要表之间进行大量连接,导致随着数据复杂性增加而性能下降。这些性能挑战也与诊所扩展数据集的需求相悖。
双图方法确保患者数据安全协作
受马克斯·普朗克生物化学研究所的启发,该研究所成功地使用由 Neo4j 支持的蛋白质组学 CKG,Weiss 和他的团队寻找一个适合他们需求的图数据库。“我们很容易上手 Neo4j 并连接我们的生物医学数据源,这为我们创建知识图谱提供了一条捷径”,Weiss 说。
知识图谱中的每个儿童都表示为一个节点,链接到症状、蛋白质、表型及其他相关数据的节点。研究人员使用 Neo4j 的图查询语言 Cypher,以发现能够带来准确诊断的关系和模式。该知识图谱整合了 2,500 名儿科患者的数据,并计划在三年内扩展到 5,000 名。
Weiss 的团队还使用高级算法来建立数据点之间的因果关系——这项任务超出了单个医院的能力范围。“我们希望利用我们的临床知识图谱来预测重症监护室中诊断不明的每个儿童的预后,”Weiss 说。“但通常情况下,我们不知道孩子为什么生病。这极具挑战性。 我们有数据,但我们找不到大海捞针。”
LMU 采用双图方法来克服这一挑战,同时保护患者隐私。内部本地图数据库存储敏感患者信息,而第二个基于云的图则托管合成数据以开发 AI 应用程序。这些应用程序通过 FeatureCloud 以 docker 容器的形式发送到诊所内部的真实患者数据。这种联邦机器学习服务允许多个合作伙伴连接并运行算法,从而从所有合作伙伴数据中学习,而无需共享实时患者数据。
“我们的策略是开放数据集,以便更多合作伙伴可以贡献,”Weiss 补充道。“AI 的经典规则是,您需要的示例数量是参数的 10 倍。图数据科学和图机器学习利用上下文知识来克服这一范式。这些技术并不常见,但让更多 AI 开发者团队获得更多访问权限也将带来更多突破。”
携手合作,治愈罕见儿科疾病,拯救生命
Weiss 带领医院最近参加了慕尼黑工业大学举办的一场 AI 挑战黑客松。学生们使用机器学习 (ML) 开发了 Python 模型,利用合成患者数据进行预测。最有前景的模型根据医院的 Neo4j 临床知识图谱进行测试,以使用 F1 分数(一种衡量模型准确性的 ML 评估指标)验证这些预测的准确性。该活动证明了吸引 AI 开发者加速创新同时保护私人临床数据的潜力。
LMU 的概念验证图还整合了来自 DrugBank 数据库的数据,提供美国食品药品监督管理局 (FDA) 批准药物的见解,以及有关药物靶点、蛋白质和其他属性的详细数据。研究人员可以更轻松地探索一种已被批准用于某一目的的药物是否可能靶向参与另一种疾病的某些相同蛋白质。
Weiss 设想,制药和生命科学领域的初创公司和企业将利用这个不断增长的临床数据库来开发新药。该医院也是欧洲儿童医院组织 (ECHO) 的一部分,以促进其他国家医院的参与。同时,LMU 正在将其外部图迁移到 AWS,以便全球公共和私人合作伙伴进行协作。
通过全球合作,关爱罕见病基金会正在加快诊断时间,并为面临罕见儿科疾病的家庭带来更大的希望。“我们正处于许多医学突破的临界点,”Weiss 说,“因为我们利用 AI 和像我们的 Neo4j 知识图谱这样的概念验证来为罕见病创建一个完整的个性化医疗生态系统,使世界各地的医院能够更好地服务有需要的儿童。”
联系我们
好奇图驱动的解决方案能为您的业务带来哪些洞察? 我们来聊聊 — 联系我们,我们会与您取得联系。