机器学习和图技术加速医学研究

挑战

对于大多数类型的癌症,早期诊断可以提高患者的存活率。问题在于,许多用于诊断癌症的检测方法具有侵入性,并且需要特殊的设备。

例如,胃癌仍然使用 1965 年的技术——内窥镜进行诊断。此外,内窥镜并非有效的筛查工具:只有 2% 的接受筛查的患者患有胃癌。一种更简单的诊断方法可以消除不必要的检查并提高检测率。

Miroculus 看到了微小 RNA 在癌症检测方面的应用前景,但人们认为微小 RNA 被锁在细胞中。2008 年,该公司的一位顾问发现了循环微小 RNA。无论何时细胞在组织水平上出现问题,它们都会分解并将微小 RNA 释放到血液中。

如今,检测微小 RNA 仍然需要高技能的科学家、昂贵的试剂和机器以及非常复杂的方案。Miroculus 看到了改变微小 RNA 检测面貌的潜力。

进行一项研究以寻找胃癌的微小 RNA 生物标志物,意味着要跟上相关医学研究的爆炸式增长。典型的研究方法包括搜索文章、选择相关的文章、尝试检索文章并对其进行吸收。

随着微小 RNA 研究的增多,吸收所有相关信息需要花费几辈子时间。Miroculus 需要一种方法来加速这一过程,并将科学家直接连接到相关的研究。

解决方案

Miroculus 想要找到胃癌的微小 RNA 生物标志物。这是一个引人注目的研究领域——在 100 万名被诊断患有胃癌的人中,80% 的人在 18 个月内无法存活。

他们的工作需要跟上连接基因、疾病和微小 RNA 的最新出版物。“为了理解所有新获得的微小 RNA 信息,我们将大量数据存储在一个可搜索的图数据库中,”Miroculus 数据科学副总裁 Antonio Molins 说。

Miroculus 团队在 Hadoop 中收集了超过 10 亿篇文章。接下来,他们使用自然语言处理 (NLP) 来提取包含基因、疾病和微小 RNA 关键词的特定句子。推断关键词之间的关系需要另一个步骤。该团队开发了一个无监督机器学习模型来分类关系,然后将其存储在 Neo4j 中。

“我们认为,对于特定问题使用合适的工具是明智之举,”Molins 说。“如果您关注的是关系,那么图数据库就是合适的工具。”

该团队创建了一个交互式可视化工具,可以通过微小 RNA、基因和疾病进行搜索。用户的搜索条件成为可视化的中心节点,周围的节点连接特定的微小 RNA。选择特定节点会调出与其相关的论文,并引用具体的句子以及指向该出版物的链接。

掌握了最新的医学研究,Miroculus 设计了一项遵循 FDA 指南的研究。这项研究——与 NIH、国家癌症研究所和智利专家合作进行——包括 650 名符合内窥镜检查条件以诊断胃癌的人。 下载案例研究