安装

选择正确的版本

请确保您的设置与 Spark 版本和 Scala 版本都匹配。以下兼容性表可帮助您选择正确的连接器版本。

表 1. 兼容性表
Spark 版本 构件 (Scala 2.12) 构件 (Scala 2.13)

3.4+

org.neo4j:neo4j-connector-apache-spark_2.12:5.3.8_for_spark_3

org.neo4j:neo4j-connector-apache-spark_2.13:5.3.8_for_spark_3

3.3

org.neo4j:neo4j-connector-apache-spark_2.12:5.1.0_for_spark_3

org.neo4j:neo4j-connector-apache-spark_2.13:5.1.0_for_spark_3

3.2

org.neo4j:neo4j-connector-apache-spark_2.12:5.0.3_for_spark_3

org.neo4j:neo4j-connector-apache-spark_2.13:5.0.3_for_spark_3

3.0 和 3.1

org.neo4j:neo4j-connector-apache-spark_2.12:4.1.5_for_spark_3

org.neo4j:neo4j-connector-apache-spark_2.13:4.1.5_for_spark_3

在 Spark shell 中使用

此连接器可通过 Spark Packages 获取

$SPARK_HOME/bin/spark-shell --packages neo4j:neo4j-spark-connector:5.3.8-s_2.12
$SPARK_HOME/bin/pyspark --packages neo4j:neo4j-spark-connector:5.3.8-s_2.12

或通过部署到 Maven Central 的构件获取

$SPARK_HOME/bin/spark-shell --packages org.neo4j:neo4j-connector-apache-spark_2.12:5.3.8_for_spark_3
$SPARK_HOME/bin/pyspark --packages org.neo4j:neo4j-connector-apache-spark_2.12:5.3.8_for_spark_3

或者,您可以从 Neo4j 连接器页面GitHub 发布页面下载连接器 JAR 文件,并运行以下命令以启动包含连接器的 Spark 交互式 shell

$SPARK_HOME/bin/spark-shell --jars neo4j-spark-connector-5.3.8-s_2.12.jar
$SPARK_HOME/bin/pyspark --jars neo4j-spark-connector-5.3.8-s_2.12.jar

独立应用程序

对于非 Python 应用程序

  1. 使用应用程序的构建工具将连接器包含在您的应用程序中。

  2. 打包应用程序。

  3. 使用 spark-submit 运行应用程序。

对于 Python 应用程序,直接运行 spark-submit

至于 spark-shell,您可以通过 Spark Packages 或使用本地 JAR 文件运行 spark-submit。请参阅快速入门以获取代码示例。

一个最小的 build.sbt
name := "Spark App"
version := "1.0"
scalaVersion := "2.12.20"

libraryDependencies += "org.apache.spark" %% "spark-sql" % "3.5.5"
libraryDependencies += "org.neo4j" %% "neo4j-connector-apache-spark" % "5.3.8_for_spark_3"

如果您使用 sbt-spark-package 插件,请将以下内容添加到您的 build.sbt

scala spDependencies += "org.neo4j/neo4j-connector-apache-spark_2.12:5.3.8_for_spark_3"
一个最小的 pom.xml
<project>
  <groupId>org.neo4j</groupId>
  <artifactId>spark-app</artifactId>
  <modelVersion>4.0.0</modelVersion>
  <name>Spark App</name>
  <packaging>jar</packaging>
  <version>1.0</version>
  <dependencies>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.12</artifactId>
      <version>3.5.5</version>
      <scope>provided</scope>
    </dependency>
    <dependency>
      <groupId>org.neo4j</groupId>
      <artifactId>neo4j-connector-apache-spark_2.12</artifactId>
      <version>5.3.8_for_spark_3</version>
    </dependency>
  </dependencies>
</project>

其他构建工具

Gradle

dependencies {
    // list of dependencies
    compile "org.neo4j:neo4j-connector-apache-spark_2.12:5.3.8_for_spark_3"
}
© . All rights reserved.