Neo4j 发布首个企业级图机器学习


图原生机器学习,曾是大公司的专属领域,现可通过 Neo4j for Graph Data Science 1.4 获得


加利福尼亚州圣马特奥 – 2020 年 10 月 20 日Neo4j®,图技术领域的领导者,宣布推出 Neo4j for Graph Data Science™ 的最新版本,这是一项通过利用深度学习和图卷积神经网络来普及先进的基于图的机器学习 (ML) 技术的突破。

迄今为止,除 Google 和 Facebook 之外,很少有公司拥有利用图嵌入的 AI 洞察力和资源。这种强大且创新的技术计算图内每个数据片段的周围网络形状,从而实现更好的机器学习预测。Neo4j for Graph Data Science 1.4 版本将这些创新普及化,颠覆了企业在从欺诈检测到跟踪客户或患者旅程、药物发现和知识图谱补全等各种场景中进行预测的方式。

Graph embeddings are a powerful tool to abstract the complex structures of graphs and reduce their dimensionality.

图注:图嵌入是一种强大的工具,可以抽象图的复杂结构并降低其维度。这项技术为基于图的机器学习开辟了广泛的用途。

Neo4j for Graph Data Science 1.4 版本是首个也是唯一一个商业上可用的企业级图原生机器学习功能。从数据中学习通用、预测性特征的能力非常重要,因为组织并非总是知道如何表示连接数据以用于机器学习模型。最新的 Neo4j 版本包含图嵌入算法,可以学习用户图的结构,而不是依赖预定公式来计算中心性分数等特定特征。

Neo4j 首席产品经理兼数据科学家 Alicia Frame 分享了 Neo4j for Graph Data Science 1.4 版本对数据科学家和分析团队的意义。

“我们很高兴能将前沿的图嵌入技术引入易于使用的企业软件,”Frame 博士说。“最新版本的 Neo4j for Graph Data Science 普及了最先进的技术,让任何人都可以使用图机器学习。这彻底改变了预测分析所能达到的成果。”

UK.GOV 的图嵌入应用

在 GOV.UK 最近一篇题为“一张图统治一切”的博文中,数据科学家 Felisia LoukouMatthew Gregory 博士撰写了关于借助图数据科学和 Neo4j 知识图谱部署其首个机器学习模型的文章。他们的模型根据用户正在访问的页面自动向 GOV.UK 用户推荐内容。在他们 2020 年 8 月的博文中,他们解释道:

“node2vec 可以在给定任何图的情况下,学习节点的连续特征表示(一个数字向量),然后可用于各种机器学习任务,例如推荐内容。通过这个过程,我们了解到,创建支持模型训练和部署的必要数据基础设施是最耗时的部分。”

主要特性

借助 Neo4j for Graph Data Science,组织现在拥有了一种全新的方式从数据中学习,从现有数据集中获取更多价值,并不断提高预测准确性

  • 在他们的数据中发现他们甚至不知道要寻找的启示:图嵌入(算法)学习数据中结构上重要的内容,汇集了所有传统图算法所收集信息的通用超集。图嵌入通过采样图的拓扑结构和属性,然后将其复杂性降低到仅包含这些重要的特征,从而进一步进行机器学习。

  • 当传统算法不足时消除瓶颈。图算法和嵌入可以利用图的拓扑结构和属性来抽象其结构,从而能够根据数据点之间的连接来预测结果,而不是仅凭原始数据。

  • 使用通用学习对数据执行更快的特征工程,以避免在预测性特征模糊时测试大量有针对性的算法,并使用 FastRP 等高性能方法。

  • 通过将 GraphSage 的学习函数存储在新的机器学习模型目录中,并将其应用于新数据以获得新的嵌入和预测,从而不断纳入新数据和预测——无需重新训练模型。

  • 通过添加持续的评分和分类结果,以及预测缺失信息,不断增强图数据库的价值,从而获得持续改进的洞察。

Neo4j for Graph Data Science 1.4 版本包含三个新的图嵌入选项,它们学习图拓扑结构以计算更准确的表示:

  • node2Vec 是一种著名的使用神经网络的图嵌入算法

  • FastRP 是一种比 node2Vec 快 75,000 倍的图嵌入方法,同时提供同等准确度,并且即使对于非常大的图也能很好地扩展

  • GraphSAGE 是一种用于图上归纳表示学习的嵌入算法和过程,它使用图卷积神经网络,并且可以在图更新时持续应用。

除了提供复杂向量表示的图嵌入,新版本的 Neo4j for Graph Data Science 还增加了通用的机器学习算法,例如常用于基于模式分类的 k 最近邻算法 (k-NN),以便更容易从图嵌入中获取洞察。

知识图谱补全示例

知识图谱补全在各个领域都具有价值,包括识别基因与疾病之间的新关联、新药发现以及预测客户与产品之间的联系以提供更好的推荐。从支持领域专家发现已知信息的查询,到理解趋势的模式,再到计算高价值特征以训练 ML 模型,没有图技术,知识图谱补全是不可能实现的。

This image shows a knowledge graph completion workflow.

图注:此图片显示了知识图谱补全工作流程。Neo4j for Graph Data Science 1.4 现在支持端到端工作流程,用于知识图谱补全等图机器学习任务。

在药物发现场景中,这意味着不仅要识别基因与疾病或药物与蛋白质之间可能的新关联,还要提供即时上下文来评估这些发现的相关性或有效性。对于客户推荐,这意味着从用户旅程中学习,以预测未来购买的准确推荐,同时在他们的购买历史中呈现选项,以增强对建议的信心。

了解更多

了解更多关于 Neo4j for Graph Data Science 的信息在此下载最新版本。版本 1.4 将在 Neo4j 全球开发者大会 Neo4j 在线开发者博览会暨峰会 (NODES) 2020 期间详细介绍。您还可以观看 Neo4j Connections for Graph Data Science 在线活动的演讲和演示

关于 Neo4j

Neo4j 是图数据库技术领域的领导者。作为全球部署最广泛的图数据库,我们帮助 ComcastNASAUBSVolvo Cars 等全球品牌揭示和预测人、流程和系统之间的相互关联。通过这种关系优先的方法,使用 Neo4j 构建的应用程序解决了连接数据挑战,例如分析和人工智能欺诈检测实时推荐知识图谱。在 neo4j.com 了解更多信息。

资源

在 Twitter 上分享

联系方式
pr@neo4j.com
neo4j.com/news/

© 2020 Neo4j, Inc.,Neo Technology®、Neo4j®、Cypher®、Neo4j® Bloom™、Neo4j® Aura™ 和 Neo4j for Graph Data Science™ 是 Neo4j, Inc. 的注册商标或商标。所有其他标志均归其各自公司所有。