诺华利用最新生物知识加速药物研发
挑战
诺华已积累了数十年来关于各种化合物如何影响蛋白质靶点,
例如酶,总计约有十亿个数据点。这些历史数据至关重要,但
与当前正在收集的数据的惊人粒度相比却显得稀疏。
如今,诺华采用自动化流程,捕获显示
某种特定化合物如何影响整个细胞培养物的高内容图像数据。这会生成数太字节的
表型数据。
诺华面临着将现有历史数据存储与日益增长的
表型数据相结合的挑战。他们还需要一种方法,将所有这些数据置于全球正在进行的医学研究的
大背景下。
诺华团队希望将其数据与美国国立卫生研究院 (NIH) PubMed 上的医学信息相结合。
PubMed 收录了来自约 5,600 种科学期刊的约 2,500 万篇摘要。
诺华团队寻求一种方法,使研究人员能够将所有这些数据与最新的医学研究背景联系起来,提出问题。
正如诺华高级科学家 Stephan Reiling 所说:“当我们尝试分析这些数据时,
我们越发清楚地认识到,我们需要一种方法来存储生物学知识,并
对其进行查询。”
解决方案
摄取并连接有关疾病、基因和化合物的数据,同时识别
这些元素之间关系的性质——有望加速
药物研发。
诺华团队希望以三角形模式链接基因、疾病和化合物。
“要成功进行药物研发,你需要能够在这个三角形中导航,”
Reiling 解释道。诺华团队决定创建一个存储在 Neo4j 中的知识图谱,并设计了
一个用于摄取最新医学研究数据的处理管道。
文本挖掘用于管道的起始阶段,从
PubMed 中提取相关文本数据。然后,这些数据连同诺华自己的历史数据和图像
数据一同导入 Neo4j。该数据管道填充了为编码数据而设计的 15 种节点。
下一阶段则填充连接这些节点的关系信息。该
团队识别了 90 多种不同的关系。
诺华使用 Neo4j 图算法遍历图谱,识别所需的三角形
节点模式,将三类数据连接起来。图分析不仅能找到相关的
目标三角形关系中的节点,还采用团队设计的一个指标来
衡量每个三角形中每个节点之间的关联强度。利用这项功能,
团队设计了查询,以根据所需的节点模式、给定的关联
强度来查找数据,然后根据此指标对三角形进行排序。
当研究人员查询知识图谱时,结果显示了元素之间的相关强度。
如果研究人员已经知道一个高度相关的关联,他们
可能会选择研究其他关联,这可能会使他们的工作走向新的方向。