灵活的数据模型为复杂的癌症研究数据提供拯救生命的洞察

 

挑战

IRCC 团队对从欧洲各地医院收集的癌症样本进行分子和生物学测试。他们需要开发一个实验室信息管理系统来跟踪数据,例如癌症样本的生物学和分子特性,以及随后对这些样本进行的科学程序。这将为用于分析数据和生成高级生物学假设的数据库提供数据。

但是,不同类型的结构复杂数据往往是分层的,具有复杂且经常变化的关系,这需要多个集成数据模型。他们最初的工具——关系数据库 MySQL——需要大量的 JOIN,导致查询缓慢,以及数据集成和一致性方面的挑战。

无论研究人员选择哪种工具,它都需要向两个不同的受众提供服务:与 IRCC 共享数据的合作者,以及需要访问其软件的进行类似研究的其他团队,所有这些都是为了共同构建癌症研究知识。

这需要一个灵活、高效的工具,可以组织和跟踪癌症样本及其分子和生物学特征;用作数据挖掘资源;并用作跟踪程序的数据库。

“我们的应用程序依赖于复杂的分层数据,这需要比传统关系数据库模型提供的模型更灵活的模型,”该项目总体经理 Andrea Bertotti 博士说。

解决方案

IRCC 已开发出其数据库的生产版本,该版本依赖于 MySQL 来存储遗留数据并跟踪实体、特征和实验室程序。这些数据通过脚本发送到 Neo4j,数据库还不断从公开可用资源导入数据。

他们使用 MongoDB 存储原始的、复杂的数据,并依赖 Neo4j 完成所有其他操作:查找复杂的关联关系,分析实验过程,以及为基因组知识建模基因组领域和复杂的语义。

虽然他们最初尝试将关系表模型移植到图中,但他们计划重新设计数据库,并使用 Neo4j 作为更抽象的层来为每个实例生成数据模型,以便集成一个抽象的本体来规定关系。

填写此页面上的表格以下载完整案例研究。

阅读完整案例研究