先决条件
此页面概述了在运行数据流作业以将数据导入 Neo4j 之前需要遵循的所有步骤。
Neo4j 实例
您需要一个正在运行的 Neo4j 实例,数据可以流入其中。
如果您还没有实例,则有两个选项
-
注册免费的 AuraDB 实例
-
在可公开访问的位置安装并自行托管 Neo4j(请参阅 Neo4j → 安装),并打开端口 7687(Bolt 协议)
该模板使用 约束,其中一些仅在 Neo4j/Aura 企业版安装中可用。尽管数据流作业能够**在 Neo4j 社区版实例上运行,但大多数约束将不会创建**。因此,您必须确保源数据和作业规范已相应准备。 |
Google Cloud Storage 存储桶
您需要一个 Google Cloud Storage 存储桶。这是数据流作业唯一可以从中获取文件(包括配置文件和源 CSV 文件,如果有)的位置。
上传连接信息
无论您的 Neo4j 实例如何部署,您都需要创建一个包含数据库连接信息的 JSON 格式文件。我们将此文件称为 neo4j-connection-info.json
。Dataflow 将使用此文件中包含的信息连接到 Neo4j 实例。
基本身份验证方案依赖于传统的用户名和密码。此方案也可用于对 LDAP 服务器进行身份验证。
{
"server_url": "neo4j+s://xxxx.databases.neo4j.io",
"database": "neo4j",
"username": "<username>",
"pwd": "<password>"
}
如果服务器上禁用了身份验证,则可以省略凭据。
{
"server_url": "neo4j+s://xxxx.databases.neo4j.io",
"database": "neo4j",
"auth_type": "none"
}
Kerberos 身份验证方案需要一个 base64 编码的票证。仅当服务器安装了 Kerberos 附加组件 时才能使用它。
{
"server_url": "neo4j+s://xxxx.databases.neo4j.io",
"database": "neo4j",
"auth_type": "kerberos",
"ticket": "<base 64 encoded Kerberos ticket>"
}
承载者身份验证方案需要一个由身份提供者通过 Neo4j 的 单点登录功能 提供的 base64 编码令牌。
{
"server_url": "neo4j+s://xxxx.databases.neo4j.io",
"database": "neo4j",
"auth_type": "bearer",
"token": "<bearer token>"
}
要登录到具有自定义身份验证方案的服务器。
{
"server_url": "neo4j+s://xxxx.databases.neo4j.io",
"database": "neo4j",
"auth_type": "custom",
"principal": "<principal>",
"credentials": "<credentials>",
"realm": "<realm>",
"scheme": "<scheme>",
"parameters": {"<key>": "<value>"}
}
连接文件可以作为机密上传到 Google Cloud Secret Manager 或直接上传到您的 Google Cloud Storage 存储桶
-
Google Secret Manager — 创建一个新的机密,并将
neo4j-connection-info.json
文件作为值上传。 -
Google Cloud Storage — 将
neo4j-connection-info.json
文件上传到您的 Cloud Storage 存储桶。
要导入的数据集
您需要一个要导入到 Neo4j 的数据集。这应包含位于您的 Google Cloud Storage 存储桶中的多个 CSV 文件。本指南为您提供了一组 CSV 文件以开始使用。
源 CSV 文件必须满足某些约束
-
它们不应包含空行。
-
它们不应包含标题行。
在源对象定义中指定列名,并在文件中仅保留数据行。包含标题行的 CSV 将导致导入额外的实体,并将列名作为数据值。
由于您正在将数据从关系数据库迁移到图数据库,因此**数据模型可能会发生变化**。查看 图数据建模指南,了解如何为图数据库建模。 |
Google Dataflow 作业
The Google Dataflow 作业将所有部分连接在一起并执行数据导入。您需要创建一个作业规范文件,以向 Dataflow 提供加载数据到 Neo4j 所需的所有信息。

所有与 Google 相关的资源(Cloud 项目、Cloud Storage 存储桶、Dataflow 作业)应属于同一帐户,或者属于 Dataflow 作业有权访问的帐户。 |