诺华捕捉最新的生物学知识,用于药物发现
挑战
诺华积累了数十年的数据,这些数据涵盖了各种化合物如何影响蛋白质靶点(例如酶),总计约十亿个数据点。这些历史数据至关重要,但与目前收集到的惊人的粒度数据相比,这些数据稀疏。
如今,诺华使用自动化流程来捕获高内涵图像数据,这些数据显示了特定化合物如何影响整个细胞培养。这产生了数 TB 的表型数据。
诺华面临着将历史数据存储与这些不断增长的表型数据相结合的挑战。他们还需要一种方法将所有这些数据放置在来自世界各地正在进行的医学研究的更大背景下。
诺华团队希望将他们的数据与来自美国国立卫生研究院 PubMed 的医学信息相结合。PubMed 包含来自约 5,600 种科学期刊的大约 2,500 万篇摘要。
诺华团队寻求一种方法来赋能研究人员,让他们能够提出问题,将所有这些数据在最新医学研究的背景下联系起来。
正如诺华高级科学家 Stephan Reiling 所言,“当我们尝试分析这些数据时,很明显,我们需要一种方法来存储生物学知识,然后对其进行查询。 ”
解决方案
摄取和连接关于疾病、基因和化合物的数据(以及识别这些元素之间关系的性质)蕴藏着加速药物发现的希望。
诺华团队希望以三角形模式将基因、疾病和化合物联系起来。 “对于成功的药物发现,您需要能够在这三角形中进行导航, ”Reiling 解释道。诺华团队决定创建一个存储在 Neo4j 中的知识图,并设计了一个用于摄取最新医学研究的处理管道。
文本挖掘用于管道开始,从 PubMed 中提取相关的文本数据。然后,这些数据被馈送到 Neo4j 中,以及诺华自己的历史数据和图像数据。数据管道填充了 15 种节点类型,这些节点类型是为了对数据进行编码而设计的。下一阶段填充连接节点的关联信息。该团队识别了 90 多种不同的关联。
诺华使用 Neo4j 图算法遍历图,识别将三类数据联系起来的所需三角形节点模式。图分析不仅可以在所需的三角形关联中找到相关的节点,而且还使用团队设计的度量标准来衡量每个三角形中每个节点之间的关联强度。利用这种能力,团队设计了查询,以找到由所需节点模式链接的数据(具有给定的关联强度),然后根据该度量标准对三角形进行排序。
当研究人员查询知识图谱时,结果显示了元素之间相关性的强度。如果研究人员已经了解了高度相关的关联,他们可能会选择研究其他关联,这可能会将他们的工作引向新的方向。
下载案例研究