摘要

Basecamp Research 正在利用 Neo4j 的图数据库绘制地球生物多样性图谱,从而改变生物技术领域。Basecamp 团队已与五大洲的自然公园建立合作伙伴关系,收集了涵盖全球超过 50% 的生物群落的生物和化学数据,以解决我们对地球生物多样性了解不足 0.001% 的基本知识差距。

他们开创性的知识图谱将专有的蛋白质和基因组序列与环境和化学数据配对,揭示了复杂的生物网络。这个包含超过 50 亿个关系的图谱,已经将已知蛋白质的数量增加了 50%。

因此,Basecamp 的知识图谱已成为生物经济中蛋白质设计应用和生成式AI模型的优质资源。Basecamp 的知识图谱还将所有数据追溯到其地理来源,这使得公司能够确保生命科学行业中的商业成功与最初产生数据的生物多样性利益相关者共享。

Neo4j 可扩展的图解决方案已被证明对于管理复杂、相互关联的数据至关重要,它揭示了以前未知的基因组关系,并识别了新的蛋白质。

在 Neo4j 为其雄心勃勃的项目提供支持的情况下,Basecamp Research 正在推动生物技术突破,这些突破有望重塑药物、食品和诊断的生产。这种改变游戏规则的方法突显了图技术在利用复杂、相互关联的数据中的模式和关系方面的变革潜力。



构建地球上最大的生命知识图谱

人类问题的解决方案是否可以在地球的尽头找到?对于 Basecamp Research 来说,这是一个值得探索的存在主义问题,从字面意义上讲。这家生物技术公司的 20 人团队由野外研究人员、机器学习专家和科学家组成,他们相信答案可以从世界生物多样性中找到。

他们通过前往世界最偏远地区并采集来自未开发环境的样本,构建了世界上最大的地球自然生物多样性知识图谱。

生命科学中使用的所有生物技术产品和AI算法都从根本上植根于我们对地球生命的理解。然而,据估计,我们的星球上栖息着数万亿种物种,其中超过 99.9% 的物种尚未被发现和研究。这大量未知的生命形式导致了我们公共基因组测序数据库中存在固有的偏差,使其极不代表生命的真实多样性。Basecamp 通过为生物技术产品和AI应用提供更具包容性和代表性的数据范围来解决这一知识差距——这一战略举措使研究人员能够设计以前认为无法实现的创新蛋白质,更准确地识别最有希望的实验对象,并开发出更优越的药物、食品和诊断产品。最终,这些进步将产生深远的影响,不仅惠及人类,也惠及我们的星球。

这项工作需要一个庞大的基因组数据库。然而,与通常组织成列表或目录的公共数据库不同,Basecamp Research 通过将每个蛋白质和基因组序列与相关的环境和化学数据关联起来,增强了其价值。这种方法提供了对复杂生物网络及其与周围环境相互作用的全面理解,而只有图解决方案才能揭示这一点。据该公司称,今天,Basecamp Research 的 知识图谱,BaseGraph™——构建在 Neo4j 之上——包含超过 50 亿个生物学关系,每 4 周发现 5 亿个新的关系,从而使已知科学的蛋白质数量增加了 50%,扩展了预测性发现,并揭示了地球生命运作方式的新见解。

更好地了解生物多样性也带来了更好的商业成功。正如 福布斯所说,“随着制造商选择生物学作为有效生产高性能可持续产品的首选方法,全球生物经济即将腾飞。合成生物学处于这场 4 万亿美元淘金热的最前沿。”

应对数据复杂性和连接性

选择合适的数据库来处理复杂、相互关联的数据对于 Basecamp Research 来说是一个至关重要的决定。

“我的第一直觉是‘把所有数据都放到表里,然后用 JOIN 连接起来’,”Basecamp Research 数据工程团队负责人 Saif Ur-Rehman 说道。所以他们最初就是这样开始的。但在探索了关系型数据库和多个 NoSQL 数据库选项后,图证明是处理如此高度连接和多变数据的最合乎逻辑的选择。正如 Basecamp 的 CTO Phil Lorenz 所观察到的,“生命像网络一样运作,而不是像列表一样。”

数据收集过程从获得收集环境样本的合法许可证开始。然后,该过程需要引入围绕样本的所有元数据,例如温度、土壤的 pH 值以及数百个其他变量。然后,Basecamp 团队提取并注释样本中(微)生物的 DNA。为了使此过程更加顺畅,Basecamp 构建了一个完全自动化的注释管道,称为 BaseScan,该管道为每个样本生成数百万个生物标签和注释,并自动集成到 BaseGraph 中。

“所以你很快就从一个生物实体变成了数百万个数据点,”Ur-Rehman 说。“我们进行了一项实证研究,并且从理论上也进行了思考。从根本上讲,图胜出,因为你在分子中拥有的任何注释都是零散的。你可能在一个分子上有五段注释,而在另一个分子上则没有。关系型数据库无法很好地处理这种情况。你最终会得到一堆表,其中包含大量 N/A。这对查询或性能目的而言并不是特别有用。”

选择图数据库

Basecamp Research 的核心业务是图数据库——这意味着其成功取决于利用正确的数据库技术。因此,问题不再是为什么选择图,而是为什么选择 Neo4j?

“我们正在构建的图特性是我们产品和商业解决方案的关键部分,”Lorenz 说。“使用 Neo4j 的一个巨大优势是它提供了一些低代码解决方案,我们的商业团队可以非常轻松地与之交互。这使得许多流程都具有很强的可扩展性。”

Lorenz 和任何一位创始团队成员都没有图数据库的背景,但这并不是障碍。“这是一次无缝的旅程,我将其主要归因于 Neo4j 的支持以及他们帮助我们的方式,”Lorenz 说,并指出 Neo4j 使他相信了图的力量,新的图深度学习科学家已经加入了 Basecamp 团队。Lorenz 还被 图数据科学所吸引,Neo4j 的高级分析和机器学习 (ML) 解决方案,以便从 BaseGraph 中获得更多收益,从发现未知的基因组关系到识别新的蛋白质。

Lorenz 还强调了 Neo4j 为其用户提供的 Bloom 数据可视化工具。“Bloom 和我们可以在 Neo4j 中找到的许多本地解决方案对我们的商业团队和产品科学家来说非常有吸引力,”他说。

Basecamp 对市场上的其他图数据库工具进行了额外的尽职调查,但选择很明确。“对我来说,Neo4j 一直都是非常明显的选择,因为它提供的本地解决方案以及我们知道会得到的支持,”Lorenz 说。

“Neo4j 是我们所有数据存储的地方。我们现在有 50 亿个关系,并且每天都在增长,因为我们的团队不断地在外面工作,数据源源不断地涌入,”Ur-Rehman 说。

利用互联数据揭示微生物暗物质的隐藏世界

以 Neo4j 为核心,Basecamp Research 开发了一个多维知识图谱,该图谱映射了三大类

  • 环境、地质和化学条件
  • 微生态学、宏基因组学和基因组背景
  • 深度学习衍生的功能和结构蛋白质特征

知识图谱中庞大且互联的关系网络使研究团队能够观察到控制蛋白质进化的隐藏规则,然后利用这些规则生成蛋白质设计见解,最终阐明“微生物暗物质”——一个指代绝大多数未经探索和表征的微生物的术语,从而扩展了我们对世界生物多样性的理解。

利用 Neo4j 实现生物技术突破

通过利用 Neo4j 图数据科学提供的图嵌入,Basecamp 能够不仅通过蛋白质的序列本身来表示蛋白质,而且还能整合必要的上下文信息,以显示这些蛋白质将如何相互作用、行为以及最终发挥作用。在诸如注释 暗物质蛋白质等下游任务中使用上下文,也使产品团队能够注释在治疗应用中使用的基因编辑系统,这些系统与公共数据库中的任何内容都没有 0% 的序列相似性,从而为其治疗客户提供新颖的生物学以及更大的能力来生成新的知识产权,以便在市场上推出新产品。

Basecamp 在过去两年中构建的知识图谱使更复杂的治疗产品开发机会成为可能:领先的学术团队最近发现了一种用于基因写入应用的新技术,该技术基于一种称为大型丝氨酸重组酶的酶。它们使我们不仅能够编辑人类基因组中的 DNA 片段,而且还能将整个基因写入其中,从而开启了更多治疗可能性。与可以从公共数据中挖掘到的相比,BaseGraph™ 拥有 30 倍的此类 LSR,捕捉了该技术的巨大潜力。它在图中的表示也使得为治疗应用进行优先级排序和表征比其公共对应物更容易实现。

Basecamp 的工作还在化工业中取得了突破。仅举一个例子,一家价值 160 亿美元的化学制造客户花了 2 年时间来优化一种特定的酶,在与 Basecamp 签约后,利用其系统中蛋白质网络中的 Neo4j 图算法之一,在一个月内就实现了这一结果。

通过使用 Basecamp Research 的知识图谱来揭示从世界各地收集的样本的基因组和分类学内容之间的新的联系,该团队将继续做出 新的发现并推动生物技术发展,最终使能够设计独特的蛋白质产品,以改进药物、食品和诊断。

专为 AI 设计的生物数据资源

在过去两年中,生命科学领域取得了许多令人兴奋的进步,这些进步是通过在生物序列数据上应用深度学习模型实现的,例如 AlphaFold2。与这些模型训练所用数据相比,Basecamp 具有数量级更大的序列多样性,因此可以利用这种数据优势来提高这些模型的性能。然而,这些蛋白质 AI 的许多进步仅集中在蛋白质的内在特征上,例如其序列或结构。相比之下,Basecamp 知识图谱中的元数据使它的深度学习团队能够创建捕获其上下文的蛋白质表示,例如通过 Neo4J 图数据科学库中的一部分图嵌入。

接下来是什么?Basecamp 已经开始研究大型语言模型来设计蛋白质,利用一个名为 ZymCtrl1 的类似 ChatGPT 的酶序列生成模型。由于 BaseGraph 是专为生成式 AI 而构建的,因此该团队现在将其整个知识图谱与大型语言模型集成在一起。“我们目前正在将 BaseGraph 升级为一个增强了 LLM 的知识图谱。这将使我们能够从地球上的生命本身获得设计支持,就像它在我们包含超过 50 亿个关系的知识图谱中捕获的那样,”Lorenz 说。“想象一下,你可以‘与自然对话’,或者在设计生物技术产品时将我们星球的生物多样性作为你的副驾驶。图与生成式 AI 将使我们能够做到这一点。”


1Munsamy 等人。(2022 年):ZymCtrl:用于可控生成人工酶的条件语言模型。NeurIPS 2022

视频