知识图谱驱动的糖尿病研究
挑战
大约七百万德国人患有糖尿病——这是一种最常见的国民疾病之一。为了更好地了解其病因,DZD 科学家们从不同的角度研究这种疾病。“我们的目标是实现跨地点、学科、物种和数据类型的访问,”DZD 董事会成员 Martin Hrabě de Angelis 教授说。“同时,DZD 的 450 多名科学家也应该能够获得外部专业知识。”
解决方案
DZDconnect 于 2017 年推出,是 DZD 基于 Neo4j 构建的知识图谱,服务于附属的医疗保健和医学专业人员。DZDconnect 构建在 DZD 的关系型数据库之上,连接了健康中心的系统和数据孤岛。知识图谱为大规模整合和连接越来越多的数据提供了丰富的平台。DZDconnect 会更新最新的医学研究成果。自然语言处理 (NLP) 读取并自动注释 PubMed 数据中超过 3000 万篇出版物。算法对文本进行语义分析,对相关实体进行分类,并将其与数据库中的内部信息关联起来。
“如果没有 NLP 等技术的帮助,阅读和吸收最新出版物中的信息根本不可行,”DZD 数据和知识管理负责人 Alexander Jarasch 博士解释说。“目前,在一台性能不错的机器上分析一篇摘要仍然需要大约 1.5 秒。虽然这听起来很快,但实际上要概括所有 3000 万篇出版物需要大约一年半的时间。我们使用 NLP 和图技术的方法并行运行,并在后台自动执行。”
Neo4j 图数据科学库 发挥着重要作用。其中一个目标是识别 2 型糖尿病的不同亚型,以便提供更好的治疗(精准医疗)。在集成算法的帮助下,科学家可以细分数据集。基于预定义的参数,社区检测算法识别患者集群,使研究人员能够更精确地研究这些集群。算法找到糖尿病亚型的属性并识别共享特征(例如,身高、体重、药物或基因缺陷)。
下载案例研究