构建地球生命的最大知识图谱
Basecamp Research 正在利用 Neo4j 的图数据库绘制地球生物多样性图谱,从而改变生物技术。Basecamp 团队已与五大洲的自然公园建立合作关系,收集全球 50% 以上生物群落的生物和化学数据,以弥补我们对地球生物多样性了解不足 0.001% 的根本知识空白。
他们开创性的知识图谱将专有的蛋白质和基因组序列与环境和化学数据相结合,揭示了复杂的生物网络。这个包含超过 50 亿个关系的图谱,已将已知蛋白质的数量增加了 50%。
因此,Basecamp 的知识图谱已成为生物经济中蛋白质设计应用和生成式 AI 模型的卓越资源。Basecamp 的知识图谱还将所有数据追溯到其地理来源,这使得公司能够确保生命科学行业的商业成功与数据来源的生物多样性利益相关者共享。
Neo4j 的可扩展图解决方案已被证明对管理复杂互联数据、揭示以前未知的基因组关系以及识别新蛋白质至关重要。
凭借 Neo4j 为其雄心勃勃的冒险提供动力,Basecamp Research 正在推动生物技术突破,有望重塑药物、食品和诊断的生产。这种改变游戏规则的方法强调了图技术在利用复杂互联数据中的模式和关系方面的变革潜力。
“Neo4j 帮助我们更高效地进行大规模操作,图数据科学算法帮助我们更高效地完成工作。我们今天所做的工作没有 Neo4j 是不可能的。”
构建地球生命的最大知识图谱
人类问题的解决方案能否在地球的尽头找到?对于 Basecamp Research 来说,这是一个值得探索的、颇具存在主义色彩的问题。这家生物技术公司由 20 名现场研究员、机器学习专家和科学家组成,他们相信答案可以在世界生物多样性中找到。
他们通过前往地球上最偏远的地区并从尚未充分探索的环境中采集样本,构建了世界上最大的地球自然生物多样性知识图谱。
所有用于生命科学的生物技术产品和人工智能算法都根本上植根于我们对地球生命的理解。然而,据估计,地球上生活着数万亿物种,其中超过 99.9% 的物种仍未被发现和研究。这种庞大的未知生命形式库导致我们公共基因组测序数据库中存在固有的偏差,使其无法充分代表生命的真实多样性。Basecamp 通过为生物技术产品和 AI 应用获取更具包容性和代表性的数据范围来弥补这一知识空白——这一战略举措使研究人员能够设计出以前被认为无法实现的创新蛋白质,更准确地识别最有希望的实验候选者,并开发出更优质的药物、食品和诊断产品。最终,这些进步将产生深远影响,不仅造福人类,也将造福我们的地球。
这项工作需要一个庞大的基因组数据库。然而,与通常组织成列表或目录的公共数据库不同,Basecamp Research 通过将每个蛋白质和基因组序列与相关的环境和化学数据关联起来,从而提升其价值。这种方法提供了对复杂生物网络及其与周围环境相互作用的全面理解,而这只有图解决方案才能揭示。据该公司称,如今,Basecamp Research 基于 Neo4j 构建的 知识图谱 BaseGraph™ 包含超过 50 亿个生物关系,每 4 周就会发现 5 亿个新关系,使科学已知的蛋白质数量增加了 50%,扩展了预测性发现,并揭示了地球生命运作方式的新见解。
更好地了解生物多样性也能带来更好的商业成功。正如 《福布斯》所言,“随着制造商选择生物学作为有效生产高性能可持续产品的方法,全球生物经济即将腾飞。合成生物学正处于 4 万亿美元淘金热的前沿。”
驾驭数据复杂性和连通性
选择合适的数据库来处理复杂、互联的数据对 Basecamp Research 来说是一个关键的决定。
“我的第一直觉是‘把所有东西都放到表格里然后 JOIN’,”Basecamp Research 数据工程团队负责人 Saif Ur-Rehman 说道。他们就是这样开始的。但在探索了关系型数据库和几种 NoSQL 数据库选项后,图被证明是处理高度连接和可变数据的最合乎逻辑的选择。正如 Basecamp 首席技术官 Phil Lorenz 观察到的那样:“生命以网络而非列表的形式运作。”
数据收集过程始于获得收集环境样本的法律许可。然后,该过程需要引入样本的所有元数据,例如温度、土壤 pH 值以及数百个其他变量。接着,Basecamp 团队提取并注释样本中(微)生物的 DNA。为了使这个过程更顺畅,Basecamp 建立了一个名为 BaseScan 的全自动化注释管道,为每个样本生成数百万个生物标签和注释,并自动集成到 BaseGraph 中。
“所以你很快就从一个生物实体变成了数百万个数据点,”Ur-Rehman 说。“我们进行了一项实证研究,也从理论上进行了思考。从根本上说,图胜出了,因为你在分子中拥有的任何注释都是零散的。你可能在一个分子上有五条注释,而在另一个分子上则没有。关系型数据库无法很好地处理这种情况。你最终会得到一大堆包含许多 N/A(不适用)值的表格。这对于查询或性能目的来说并不是特别有用。”
决定使用图数据库
Basecamp Research 的核心业务是图数据库——这意味着它的成功取决于利用正确的数据库技术。因此,问题不再是为什么选择图,而是为什么选择 Neo4j?
“我们正在构建的图性质是我们产品和商业解决方案的关键组成部分,”Lorenz 说。“使用 Neo4j 的一个巨大优势是它提供了一些低代码解决方案,我们的商业团队可以非常轻松地与它们交互。这使得许多流程具有高度可扩展性。”
Lorenz 和创始团队的任何成员都没有图背景,但这并非障碍。“这是一个无缝的旅程,这主要归功于 Neo4j 的支持以及他们对我们的帮助,”Lorenz 说,并指出 Neo4j 让他相信了图的力量,新的图深度学习科学家也已加入 Basecamp 团队。Lorenz 还被 Neo4j 的高级分析和机器学习 (ML) 解决方案 图数据科学 所吸引,因为它能从 BaseGraph 中挖掘更多价值,从揭示未知的基因组关系到识别新蛋白质。
Lorenz 还强调了 Neo4j 为用户提供的 Bloom 数据可视化 工具。“Bloom 和我们在 Neo4j 中发现的许多本地解决方案对我们的商业团队和产品科学家来说都非常有吸引力,”他说。
Basecamp 对市场上其他图数据库工具进行了额外的尽职调查,但选择是明确的。“对我来说,Neo4j 始终是显而易见的选择,因为它提供了本地解决方案以及我们知道将获得的支持,”Lorenz 说。
“Neo4j 是我们所有数据驻留的地方。我们现在有 50 亿个关系,而且每天都在增长,因为我们的团队不断地在外收集数据,数据源源不断地涌入,”Ur-Rehman 说。
利用互联数据揭示微生物暗物质的隐藏世界
以 Neo4j 为核心,Basecamp Research 开发了一个多维知识图谱,绘制了三大类内容:
- 环境、地质和化学条件
- 微生态学、宏基因组学和基因组背景
- 深度学习衍生的蛋白质功能和结构特征
知识图谱中庞大且相互关联的关系网络使研究团队能够观察控制蛋白质进化的隐藏规则,然后利用这些规则生成蛋白质设计见解,最终揭示“微生物暗物质”——这个术语指的是绝大多数尚未被探索和表征的微生物,从而扩展了我们对世界生物多样性的理解。
借助 Neo4j 实现生物技术突破
通过利用 Neo4j 图数据科学 提供的图嵌入,Basecamp 能够不仅通过蛋白质序列本身来表示蛋白质,还能整合必要的上下文信息,以展示这些蛋白质将如何相互作用、行为并最终发挥作用。将上下文用于下游任务,例如注释 暗物质 蛋白质,也使产品团队能够注释治疗应用中使用的基因编辑系统,这些系统与公共数据库中的任何内容都没有 0% 的序列相似性,从而为他们的治疗客户提供新颖的生物学,以及更大的能力为市场推出新产品生成新的知识产权。
Basecamp 在过去两年中构建的知识图谱为更复杂的治疗产品开发提供了机会:领先的学术团体最近发现了一种用于基因写入应用的新技术,该技术基于一种名为大丝氨酸重组酶(Large Serine Recombinases)的酶。它们不仅能让我们编辑人类基因组中的 DNA 片段,还能将整个基因写入其中,从而开辟更多治疗可能性。与从公共数据中挖掘的内容相比,BaseGraph™ 拥有多达 30 倍的此类 LSR,为这项技术捕捉了丰富的潜力。它在图中的表示也使得治疗应用的优先级排序和特性描述比公共对应物更容易实现。
Basecamp 的工作还在化学工业中取得了突破。举一个例子,一家价值 160 亿美元的化学制造客户曾花费两年时间优化一种特定酶,但在与 Basecamp 签约后,Basecamp 利用其系统中的一个 Neo4j 图算法,仅用一个月就实现了这一目标。
通过使用 Basecamp Research 的知识图谱来发现从世界各地收集的样本中基因组和分类学内容之间的新连接,该团队将继续取得 新发现并推进生物技术,最终实现独特蛋白质产品的设计,从而改进药物、食品和诊断。
专为 AI 构建的生物数据资源
在过去两年中,生命科学领域取得了一些令人兴奋的进展,这些进展是通过将深度学习模型应用于生物序列数据而实现的,例如 AlphaFold2。与这些模型训练所用的数据相比,Basecamp 拥有数量级更大的序列多样性,可以利用这一数据优势来提高这些模型的性能。然而,许多蛋白质 AI 方面的进展仅围绕蛋白质的内在特征,例如其序列或结构。相比之下,Basecamp 知识图谱中的元数据使其深度学习团队能够创建捕获蛋白质上下文的表示,例如通过 Neo4j 图数据科学库中的图嵌入。
下一步是什么?Basecamp 已经在研究用于设计蛋白质的大型语言模型,利用一个类似 ChatGPT 的酶序列生成模型,名为 ZymCtrl1。由于 BaseGraph 是专为生成式 AI 构建的,该团队现在正在将大型语言模型与他们的整个知识图谱进行集成。“我们目前正在将 BaseGraph 升级为 LLM 增强的知识图谱。这将使我们能够为客户提供来自地球生命本身的设计支持,就像我们知识图谱中捕获的超过 50 亿个关系一样,”Lorenz 说。“想象一下,你可以与自然‘对话’,或者在设计生物技术产品时,将我们星球的生物多样性作为你的副驾驶。图与生成式 AI 将使这成为可能。”
- Munsamy 等人 (2022):ZymCtrl:用于人工酶可控生成的条件语言模型。NeurIPS 2022 ↩︎