从 Web API 加载数据

支持的协议是filehttphttpss3gshdfs,允许重定向。

如果未提供任何过程,此过程将尝试检查 URL 是否实际上是文件。

由于apoc.import.file.use_neo4j_config 已启用,因此该过程通过读取两个配置参数dbms.security.allow_csv_import_from_file_urlsserver.directories.import 来检查文件系统访问是否允许,以及是否可能限制在特定目录中。如果您想删除这些约束,请设置apoc.import.file.use_neo4j_config=false

CALL apoc.load.xml('http://example.com/test.xml', ['xPath'], [config]) YIELD value as doc CREATE (p:Person) SET p.name = doc.name

从 XML URL(例如 web-api)加载,以将 XML 导入为具有属性和_type_text_children 字段的单个嵌套映射。

CALL apoc.load.csv('url',{sep:";"}) YIELD lineNo, list, strings, map, stringMap

将 CSV 从 URL 加载为值流
config 包含以下任何内容:{skip:1,limit:5,header:false,sep:'TAB',ignore:['aColumn'],arraySep:';',results:['map','list','strings','stringMap'],
nullValues:[''],mapping:{years:{type:'int',arraySep:'-',array:false,name:'age',ignore:false,nullValues:['n.A.']}}

CALL apoc.load.xls('url','Sheet'/'Sheet!A2:B5',{config}) YIELD lineNo, list, map

将 XLS 从 URL 加载为值流
config 包含以下任何内容:{skip:1,limit:5,header:false,ignore:['aColumn'],arraySep:';'+ nullValues:[''],mapping:{years:{type:'int',arraySep:'-',array:false,name:'age',ignore:false,nullValues:['n.A.']}}

从压缩文件(zip/tar/tar.gz/tgz)加载单个文件

从压缩文件加载数据时,我们需要在压缩文件中的文件名或路径之前加上! 字符。例如

加载压缩的 CSV 文件
apoc.load.csv("pathToCompressedFile/file.zip!pathToCsvFileInZip/fileName.csv")

使用 S3 协议

使用 S3 协议时,我们需要下载并将以下 jar 文件复制到插件目录

复制完这些文件后,我们需要重新启动数据库。

S3 URL 必须采用以下格式

  • s3://accessKey:secretKey[:sessionToken]@endpoint:port/bucket/key (其中 sessionToken 可选)或

  • s3://endpoint:port/bucket/key?accessKey=accessKey&secretKey=secretKey[&sessionToken=sessionToken] (其中 sessionToken 可选)或

  • s3://endpoint:port/bucket/key 如果 accessKey、secretKey 和可选的 sessionToken 在环境变量中提供

使用 hdfs 协议

要使用 hdfs 协议,我们需要下载并复制 APOC Extended 库中未包含的附加 jar 包。 我们可以在 此处 下载,或在本地下载 apoc 存储库

git clone http://github.com/neo4j-contrib/neo4j-apoc-procedures
cd neo4j-apoc-procedures/extra-dependencies
./gradlew shadow

将创建一个名为 apoc-hadoop-dependencies-5.21.0.jar 的 jar 包到 neo4j-apoc-procedures/extra-dependencies/hadoop/build/lib 文件夹中。

下载/创建该文件后,应将其放置在 plugins 目录中并重新启动 Neo4j 服务器。

使用 Google Cloud Storage

为了使用 Google Cloud Storage,您需要在 plugins 目录中添加以下 Google Cloud 依赖项

  • api-common-1.8.1.jar

  • failureaccess-1.0.1.jar

  • gax-1.48.1.jar

  • gax-httpjson-0.65.1.jar

  • google-api-client-1.30.2.jar

  • google-api-services-storage-v1-rev20190624-1.30.1.jar

  • google-auth-library-credentials-0.17.1.jar

  • google-auth-library-oauth2-http-0.17.1.jar

  • google-cloud-core-1.90.0.jar

  • google-cloud-core-http-1.90.0.jar

  • google-cloud-storage-1.90.0.jar

  • google-http-client-1.31.0.jar

  • google-http-client-appengine-1.31.0.jar

  • google-http-client-jackson2-1.31.0.jar

  • google-oauth-client-1.30.1.jar

  • grpc-context-1.19.0.jar

  • guava-28.0-android.jar

  • opencensus-api-0.21.0.jar

  • opencensus-contrib-http-util-0.21.0.jar

  • proto-google-common-protos-1.16.0.jar

  • proto-google-iam-v1-0.12.0.jar

  • protobuf-java-3.9.1.jar

  • protobuf-java-util-3.9.1.jar

  • threetenbp-1.3.3.jar

为了简化流程,我们准备了一个 uber-jar,其中包含上述依赖项,这些依赖项包含在一个文件中。 您可以 从这里下载 并将其复制到您的 plugins 目录中。

您可以使用以下 URL 格式通过 Google Cloud Storage

gs://<bucket_name>/<file_path>

此外,您还可以通过附加的 authenticationType 查询参数指定授权类型

  • NONE:用于公共存储桶(如果未指定参数,则为默认行为)

  • GCP_ENVIRONMENT:用于在 Neo4j 在 Google Cloud 中运行时作为服务帐户进行被动身份验证

  • PRIVATE_KEY:用于使用为服务帐户生成的私钥(需要设置 GOOGLE_APPLICATION_CREDENTIALS 环境变量,指向私钥 json 文件,如 此处 所述)

示例

gs://andrea-bucket-1/test-privato.csv?authenticationType=GCP_ENVIRONMENT

错误时失败

添加配置参数 failOnError:false(默认情况下为 true),意味着在发生错误的情况下,过程不会失败,而只是返回零行。