爱思唯尔使用 Neo4j 使科学研究在毫秒内触手可及

全球最大的学术同行评审内容出版商已使用 Neo4j 的图构建了一个内容索引基础设施,以解锁新的见解、将作者与读者联系起来,并推动科学发展——每年处理 7800 亿次研究请求。


  • 减少了基础设施需求:从 200 个节点减少到不到 10 个节点的单个集群
  • 查询响应时间:不到 300 毫秒+
  • 实时查询数量:每分钟 200,000 次

爱思唯尔是推动科学知识发展和传播的动力之一。它是全球最大的学术文献出版商,负责 2700 多份数字化期刊,包括 柳叶刀格雷解剖学。爱思唯尔的挑战是维护一个可信、准确、全面的内容数据库,同时确保数百万依赖这些见解的学术研究人员和机构能够轻松访问其信息。 

爱思唯尔的搜索引擎每年收到来自网站访问者的 7800 亿次搜索请求,这些访问者在爱思唯尔存储的 9000 万份文档中进行搜索。其中 95% 的搜索是结构化查询——具有许多参数的高度具体的密集搜索,例如查找作者的所有论文,或查找引用某篇论文的所有引文。

爱思唯尔的核心产品之一是 Scopus,这是一个索引工具,它从 9000 万个摘要和引文数据库中提取数据。Scopus 可以快速找到相关且权威的研究,识别专家,并提供可靠的数据访问,所有这些都是科学进步的基础。

Scopus 的搜索由 Neo4j 的图技术支持,但并非一直如此。爱思唯尔旧的搜索引擎技术无法提供其在当前规模和范围内所需的搜索结果,作为全球大部分科学知识的中心,爱思唯尔寻求重新构建平台。为此,它转向了图。 

闪电般快的搜索结果已成为新标准

对于医学研究人员来说,科学研究过程的一部分包括探索相关的现有文献。作者首先必须寻求和发现知识,以确定有关特定主题已知的知识。这个过程是持续的,对科学研究的出版、分享和审查至关重要。

多年来,爱思唯尔一直依赖传统的基于文本的搜索引擎来使作者和研究人员能够在其平台上进行搜索。但该搜索引擎无法以足够的速度满足对结构化数据查询日益增长的需求。越来越多的人在搜索更加复杂、定制化的搜索结果,但该系统无法在数据点之间建立必要的联系以满足这些复杂的搜索。真正的挑战在于建立数据点(节点)之间的联系以及这些联系的复杂性;解决方案在于这些关系中隐藏的见解。 

使用传统的关联数据库来解锁这些见解非常复杂,因为根据其设计的本质,这些数据库必须从大量的行和列中推断出这些关系。并且随着数据联系越来越紧密,这几乎变得不可能。相反,图数据库技术对数据点(节点)之间的连接赋予同等的重要性,将两者视为平等。图数据库允许用户快速地实现数十亿个数据连接之间关系和模式的潜力,使用户能够解锁解决爱思唯尔所面临挑战的新方法。

将 Scopus 内容中找到的连接数据提升到可搜索级别也十分艰巨;首先,数据被迁移到云平台,然后迁移到内存数据结构存储。然后,它会计算所有引用和引用次数,并将这些数据返回到搜索引擎,以便进行搜索。这是一种非常消耗资源、效率低下的做法。难道没有更好的解决方案吗?

“我们知道,我们希望将这些知识和研究放入结构化数据存储中,”爱思唯尔的 产品管理副总裁 Erik Schwartz 说。“我们知道图的关联能力。我们还认为,我们可以使用图来改善搜索体验。这是我们的假设。”

“我们当时正在考虑大约三到四家不同的图提供商,”他继续说道。“但我们与 Neo4j 合作,因为我们知道我们会拥有大量的用户,进行更多次数的搜索。 对于那些重要的运行时启发式方法,我们需要达到一定的性能阈值,例如查询的响应时间小于 300 毫秒。只有 Neo4j 可以帮助我们实现。”

最终,转向由图驱动的搜索引擎的决定,是出于希望通过高效、可扩展的解决方案满足这些阈值和指标,该解决方案能够处理爱思唯尔接收到的海量查询,并提供丰富、关联的结果。

“与 Neo4j 的合作是一次令人难以置信的协作体验,”Erik 继续说道。“他们只是挽起袖子,跳进来,做了任何需要做的事情来让它成功。”

实时科学需要实时数据

然而,这不仅仅是关于响应时间。凭借其图驱动的搜索引擎,爱思唯尔解锁了其他效率,其中一些效率是团队在开始时甚至没有想到的。“我们有一种直觉,我们可以将图用于其他用例,”Erik 说。

他的直觉很快被证明是正确的。“随着时间的推移,我们了解到,我们 能够将图用于其他用例。这就是 ‘啊哈’ 时刻出现的时刻。”

其中一个用例与 爱思唯尔的编辑管理系统中的文章提交过程相关,该系统是一个工作流程工具,可以帮助研究人员提交手稿、同行评审、编辑评审,并将他们的内容与合适的期刊相匹配。

出版手稿还涉及寻找同行评审文章。当作者提交论文时,系统会查看相关内容,并推荐一组作者,提交者可以联系他们进行同行评审。

现在,由于图技术的应用,该工具还允许用户按关键字进行搜索,以便用户能够确定潜在评审者之间是否存在利益冲突。该系统会遍历合著者和合聘知识图,查看过去三到五年内是否存在任何关系或重叠,并将潜在冲突标记给用户。

“我们以前根本做不到这一点,”Erik 解释道。

使用 Neo4j 减少基础设施需求

“我们进行了一些测试,结果表明,我们可以在生产环境中每分钟处理多达 20 万个查询,”Erik 解释道。“我们相信,随着规模的扩大,我们可以对该系统充满信心。”

然而,令团队惊讶的是,支持更快响应时间的新技术也节省了爱思唯尔的成本和硬件占用空间。使用 Neo4j 的解决方案后,现在单个集群可以取代以前所需的 200 个节点,相当于基础设施需求减少到不到 10 个节点。

新的图数据库还提高了 爱思唯尔的 ScienceDirect 平台上内容的搜索引擎可见性,这是一个阅读平台,包含爱思唯尔的 2,700 本期刊,提供全文搜索,研究人员可以在这里访问学术内容。 作者简介在 Google 上更容易找到;爱思唯尔的图解决方案进一步提高了同行和合作者的发现,简化了招聘和招聘流程,最终让学术界更容易获得所需的资助。它还为研究人员创造了合作解决科学跨学科挑战的机会。

展望未来,Erik 预计他们的改进型搜索引擎将有更多用例。“最近,我们的团队参与了许多生成式 AI 解决方案,这些解决方案让我们能够利用我们的搜索投资,”他说。

“我们希望客户能够提出自然语言查询,因此模型需要理解学术语言上下文。这就是我们下一步的目标,在我们的内容之上添加生成式 AI 层。”

“但这只是冰山一角。可能性几乎是无限的,爱思唯尔非常兴奋地寻找与我们与 Neo4j 共同开发的解决方案合作的新方法。”

联系我们

您想知道图驱动解决方案可以为您的业务解锁哪些见解吗?联系我们 - 联系我们,我们会与您联系。