聚合数据库备份链

命令

backup chain aggregation

聚合备份链的好处主要包括：

减少给定备份文件夹中备份构件的大小。
通过生成一个准备恢复的单个备份构件来保持恢复时间目标 (RTO) 较低。作为聚合的一部分，差异备份中包含的事务将应用于完整备份构件中包含的存储。此操作称为恢复，可能代价高昂。
降低丢失链路风险。

语法

neo4j-admin database aggregate-backup [-h] [--expand-commands]
                                      [--verbose] [--keep-old-backup[=true|false]]
                                      [--parallel-recovery[=true|false]]
                                      [--additional-config=<file>] --from-path=<path>
                                      [--temp-path=<path>] [<database>]

描述

将一系列备份工件聚合到单个工件中。

参数

表 1. `neo4j-admin database aggregate-backup` 参数
参数	描述
`[<database>]`	要为其聚合工件的数据库名称。可以包含`*` 和 `?` 用于通配符匹配。

选项

表 2. `neo4j-admin database aggregate-backup` 选项
选项	描述	默认值
`--additional-config=<file>`	包含额外配置的配置文件。
`--expand-commands`	允许在配置值评估中扩展命令。
`--from-path=<path>`	接受单个工件文件的路径或包含备份工件的文件夹。如果提供文件，则应省略<database>参数。可以使用适当的 URI 作为路径，从 AWS S3 存储桶、Google Cloud 存储桶和 Azure 存储桶聚合备份工件。
`-h, --help`	显示此帮助消息并退出。
`--keep-old-backup[=true\|false]`	如果设置为 true，则不会删除旧的备份链。	`false`
`--parallel-recovery[=true\|false]`	允许多个线程并行将拉取的事务应用于备份。对于某些数据库和工作负载，这可能会显着减少聚合时间。注意：这是一个实验性选项。在使用前咨询 Neo4j 支持。	`false`
`--temp-path=<path>`	在 5.24 版本中引入提供一个路径到一个用于存储备份文件直到命令完成的临时空目录。命令完成后，这些文件将被删除。
`--verbose`	启用详细输出。

--from-path=<path>选项还可以从 AWS S3 存储桶（从 Neo4j 5.19 开始）、Google Cloud 存储桶（从 Neo4j 5.21 开始）和 Azure 存储桶（从 Neo4j 5.24 开始）加载备份工件。有关更多信息，请参阅聚合位于云存储中的备份链。

Neo4j 5.24 引入了--temp-path选项，以解决执行与备份相关的命令（尤其是在涉及云存储时）时可能出现的磁盘空间问题。

如果未设置--temp-path，则会在--from-path选项指定的目录中创建一个临时目录。

如果您不提供--from-path选项，或者您提供的路径指向云存储桶，则会在 Neo4j 的当前工作目录中创建一个临时文件夹。此回退选项可能会导致问题，因为本地文件系统（或安装 Neo4j 的分区）可能没有足够的可用磁盘空间来容纳中间计算。

因此，强烈建议提供--temp-path选项。

示例

聚合位于给定文件夹中的备份链

以下是如何对位于给定文件夹中的一组备份（针对neo4j数据库）执行聚合的示例。

bin/neo4j-admin database aggregate-backup --from-path=/mnt/backups/ neo4j

该命令首先在/mnt/backups/目录中查找数据库neo4j的备份链。如果找到，则将其聚合到单个备份工件中。

使用给定备份文件标识的聚合备份链

以下是如何对使用给定备份文件（针对neo4j数据库）标识的一组备份执行聚合的示例。

bin/neo4j-admin database aggregate-backup --from-path=/mnt/backups/neo4j-2022-10-18T13-00-07.backup

该命令检查/mnt/backups/目录中是否存在包括文件neo4j-2022-10-18T13-00-07.backup的备份链，用于数据库neo4j。如果找到，则将其聚合到单个备份工件中。此选项仅在 Neo4j 5.2 及更高版本中可用。

聚合位于云存储中的备份链

以下示例显示了如何对位于云存储中的一组备份执行聚合。

Neo4j 使用 AWS SDK v2 通过 AWS URL 调用 AWS 上的 API。或者，您可以覆盖端点，以便 AWS SDK 可以使用系统变量aws.endpointUrls3、aws.endpointUrlS3或aws.endpointUrl，或环境变量AWS_ENDPOINT_URL_S3或AWS_ENDPOINT_URL与其他存储系统（如 Ceph、Minio 或 LocalStack）通信。

按照 AWS 官方文档中的说明安装 AWS CLI — 安装 AWS CLI 版本 2。
使用 AWS CLI 创建一个 S3 存储桶和一个用于存储备份文件的目录。
```
aws s3 mb --region=us-east-1 s3://myBucket
aws s3api put-object --bucket myBucket --key myDirectory/
```
有关如何创建存储桶和使用 AWS CLI 的更多信息，请参阅 AWS 官方文档 — 使用 AWS CLI 使用 Amazon S3 和使用 AWS CLI 使用高级 (s3) 命令。
通过运行以下命令验证~/.aws/config文件是否正确。
```
cat ~/.aws/config
```
输出应如下所示。
```
[default]
region=us-east-1
```
通过在~/.aws/credentials文件中设置aws_access_key_id和aws_secret_access_key，并在必要时使用存储桶策略来配置对 AWS S3 存储桶的访问。例如。
1. 使用aws configure set aws_access_key_id aws_secret_access_key命令设置来自 AWS 的 IAM 凭据，并验证~/.aws/credentials是否正确。
  cat ~/.aws/credentials
  输出应如下所示。
  [default] aws_access_key_id=this.is.secret aws_secret_access_key=this.is.super.secret
2. 此外，您可以使用基于资源的策略授予对您的 S3 存储桶及其中的对象的访问权限。创建一个具有以下内容的策略文档，并将其附加到存储桶。请注意，这两个资源条目对于能够下载和上传文件都很重要。
  { "Version": "2012-10-17", "Id": "Neo4jBackupAggregatePolicy", "Statement": [ { "Sid": "Neo4jBackupAggregateStatement", "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:GetObject", "s3:PutObject", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::myBucket/*", "arn:aws:s3:::myBucket" ] } ] }
然后，使用以下命令聚合位于 AWS S3 存储桶中给定文件夹中的备份链。此示例假设您在myBucket/myDirectory文件夹中有一个可通过文件myBackup.backup识别的备份链。
```
bin/neo4j-admin database aggregate-backup --from-path=s3://myBucket/myDirectory/myBackup.backup mydatabase
```

确保您有 Google 帐户和在 Google Cloud Platform (GCP) 中创建的项目。
1. 按照 Google 官方文档中的说明安装gcloudCLI — 安装 gcloud CLI。
2. 使用 Google 官方文档创建服务帐户和服务帐户密钥 — 创建服务帐户和创建和管理服务帐户密钥。
3. 下载服务帐户的 JSON 密钥文件。
4. 将GOOGLE_APPLICATION_CREDENTIALS和GOOGLE_CLOUD_PROJECT环境变量分别设置为 JSON 密钥文件的路径和项目 ID。
  export GOOGLE_APPLICATION_CREDENTIALS="/path/to/keyfile.json" export GOOGLE_CLOUD_PROJECT=YOUR_PROJECT_ID
5. 使用您创建的服务帐户的电子邮件地址、JSON 密钥文件的路径和项目 ID 对gcloudCLI 进行身份验证。
  gcloud auth activate-service-account service-account@example.com --key-file=$GOOGLE_APPLICATION_CREDENTIALS --project=$GOOGLE_CLOUD_PROJECT
  有关更多信息，请参阅 Google 官方文档 — gcloud auth activate-service-account。
6. 使用 Google 官方文档在 Google Cloud Storage 中创建一个存储桶 — 创建存储桶。
7. 通过运行以下命令验证存储桶是否已创建。
  gcloud storage ls
  输出应列出已创建的存储桶。
然后，使用以下命令聚合位于 Google 存储桶中给定文件夹中的备份链。此示例假设您在myBucket/myDirectory文件夹中有一个可通过文件myBackup.backup识别的备份链。
```
bin/neo4j-admin database aggregate-backup --from-path=gs://myBucket/myDirectory/myBackup.backup mydatabase
```

确保您有 Azure 帐户、Azure 存储帐户和 Blob 容器。
1. 您可以使用 Azure 门户创建存储帐户。
  有关更多信息，请参阅 Azure 官方文档上的创建存储帐户。
2. 在 Azure 门户中创建一个 Blob 容器。
  有关更多信息，请参阅 Azure 官方文档上的快速入门：使用 Azure 门户上传、下载和列出 Blob。
按照 Azure 官方文档中的说明安装 Azure CLI — Azure 官方文档。
使用默认 Azure 凭据对 neo4j 或 neo4j-admin 进程进行 Azure 身份验证。
有关更多信息，请参阅 Azure 官方文档上的默认 Azure 凭据。
```
az login
```
然后，您应该准备好开始在 neo4j 或 neo4j-admin 中使用 Azure URL 了。

要验证您是否可以使用登录凭据访问容器，请运行以下命令。

# Upload a file:
az storage blob upload --file someLocalFile  --account-name accountName - --container someContainer --name remoteFileName  --auth-mode login

# Download the file
az storage blob download  --account-name accountName --container someContainer --name remoteFileName --file downloadedFile --auth-mode login

# List container files
az storage blob list  --account-name someContainer --container someContainer  --auth-mode login

然后，使用以下命令聚合位于 Azure Blob 存储容器中给定文件夹中的备份链。此示例假设您在myStorageAccount/myContainer/myDirectory文件夹中有一个可通过文件myBackup.backup识别的备份链。
```
bin/neo4j-admin database aggregate-backup --from-path=azb://myStorageAccount/myContainer/myDirectory/myBackup.backup mydatabase
```