Apache Spark Neo4j 连接器

Apache Spark Neo4j 连接器提供了 Neo4j 和 Apache Spark 之间的集成。

您可以使用该连接器在 Neo4j 和其他平台(例如 Databricks 和几个 数据仓库)之间处理和传输数据。基于 Spark DataSource API,该连接器支持 Spark 支持的所有编程语言。

图和 DataFrame

该连接器使用模式推断将 Neo4j 图转换为基于 Spark 表的 DataFrame。例如,考虑一个具有以下模式的图

Example graph

该连接器创建一个 DataFrame,其中包含由 BOUGHT 关系连接的 :Customer:Product 节点,以及任何节点或关系属性。模式推断 部分显示了此过程的更详细示例,而 数据类型映射 部分显示了如何在 Neo4j 和 Spark 之间映射数据类型。

该连接器也支持将 DataFrame 写入 Neo4j,并支持用于 读取写入 数据的自定义 Cypher® 查询。

兼容性

Neo4j 兼容性

该连接器支持 Neo4j 5.x 和 4.4,无论是在 Neo4j Aura 中作为托管服务运行,还是作为单个实例或集群运行。它同时支持社区版和企业版。

Spark 和 Scala 兼容性

该连接器目前支持 Spark 3.0+,以及 Scala 2.12 和 Scala 2.13。

培训

Andrea Santurbano 在 YouTube 上提供了一个关于该连接器的介绍。

许可证

源代码 根据 Apache 2.0 许可证的条款提供。您可以自由下载、修改和重新分发该连接器;但是,Neo4j 支持仅适用于 Neo4j 提供的官方版本。

支持

对于 Neo4j Enterprise 和 Neo4j AuraDB 客户,此连接器的官方版本在您现有的 Neo4j 支持协议条款下得到支持。此支持仅扩展到常规版本,不包括 alpha 版、beta 版和预发布版。如果您对支持政策有任何疑问,请联系 Neo4j。

© 2024

许可证:知识共享 4.0