知识图谱驱动的糖尿病研究

挑战

大约七百万德国人患有糖尿病——这是一种最常见的国民疾病之一。为了更好地了解其病因,DZD 科学家们从不同的角度研究这种疾病。

“我们的目标是实现跨地点、学科、物种和数据类型的访问,”DZD 董事会成员 Martin Hrabě de Angelis 教授说。“同时,DZD 的 450 多名科学家也应该能够获得外部专业知识。”

解决方案

DZDconnect 于 2017 年推出,是 DZD 基于 Neo4j 构建的知识图谱,服务于附属的医疗保健和医学专业人员。DZDconnect 构建在 DZD 的关系型数据库之上,连接了健康中心的系统和数据孤岛。

知识图谱为大规模整合和连接越来越多的数据提供了丰富的平台。DZDconnect 会更新最新的医学研究成果。自然语言处理 (NLP) 读取并自动注释 PubMed 数据中超过 3000 万篇出版物。算法对文本进行语义分析,对相关实体进行分类,并将其与数据库中的内部信息关联起来。

“如果没有 NLP 等技术的帮助,阅读和吸收最新出版物中的信息根本不可行,”DZD 数据和知识管理负责人 Alexander Jarasch 博士解释说。“目前,在一台性能不错的机器上分析一篇摘要仍然需要大约 1.5 秒。虽然这听起来很快,但实际上要概括所有 3000 万篇出版物需要大约一年半的时间。我们使用 NLP 和图技术的方法并行运行,并在后台自动执行。”

Neo4j 图数据科学库 发挥着重要作用。其中一个目标是识别 2 型糖尿病的不同亚型,以便提供更好的治疗(精准医疗)。在集成算法的帮助下,科学家可以细分数据集。基于预定义的参数,社区检测算法识别患者集群,使研究人员能够更精确地研究这些集群。算法找到糖尿病亚型的属性并识别共享特征(例如,身高、体重、药物或基因缺陷)。

下载案例研究