内存估算

图算法库完全在堆内存中运行，这意味着我们需要为 Neo4j 服务器配置比事务性工作负载所需更大的堆内存。下面的图表显示了投影图模型如何使用内存

该模型包含三种类型的数据

节点 ID - 高达 2⁴⁵（“35 万亿”）
关系 - 节点 ID 对。如果使用 orientation: "UNDIRECTED"，关系将存储两次。
权重 - 以双精度浮点数（每个节点 8 字节）的形式存储在关系旁边的类似数组的数据结构中

内存配置取决于我们使用的图投影。

估算算法的内存需求

在许多用例中，在运行算法之前估算投影图和运行算法所需的内存将非常有用，以确保工作负载可以在可用的空闲内存上运行。为此，可以使用 .estimate 模式，该模式返回运行图算法所需的内存量估算值。请注意，只有生产就绪级别的算法才保证具有 .estimate 模式。有关更多详细信息，请参阅语法概述。

语法概要

CALL gds[.<tier>].<algorithm>.<execution-mode>.estimate(
  graphNameOrConfig: String or Map,
  configuration: Map
) YIELD
  nodeCount: Integer,
  relationshipCount: Integer,
  requiredMemory: String,
  treeView: String,
  mapView: Map,
  bytesMin: Integer,
  bytesMax: Integer,
  heapPercentageMin: Float,
  heapPercentageMax: Float

表 1. 参数
名称	类型	默认值	可选	描述
graphNameOrConfig	字符串或映射	-	否	投影图的名称或投影图的配置。
configuration	映射	-	否	算法的配置。

配置映射接受与估算算法相同的配置参数。有关更多信息，请参阅具体的算法文档。

与执行算法的程序不同，对于内存估算，可以定义一个图投影配置。通过此功能，可以同时测量投影图和执行算法的内存消耗。

表 2. 结果
名称	类型	描述
`nodeCount`	整数	图中的节点数。
`relationshipCount`	整数	图中的关系数。
`requiredMemory`	字符串	以人类可读格式估算所需的内存。
`treeView`	字符串	所需内存的更详细表示，包括以人类可读格式估算不同组件。
`mapView`	映射	所需内存的更详细表示，包括以结构化格式估算不同组件。
`bytesMin`	整数	所需的最小字节数。
`bytesMax`	整数	所需的最大字节数。
`heapPercentageMin`	浮点数	所需的已配置最大堆的最小百分比。
`heapPercentageMax`	浮点数	所需的已配置最大堆的最大百分比。

图创建配置

表 3. 参数
名称	类型	默认值	可选	描述
节点投影	字符串、字符串列表或映射	null	是	通过本机投影用于匿名图创建的节点投影。
关系投影	字符串、字符串列表或映射	null	是	通过本机投影用于匿名图创建的关系投影。
nodeQuery	字符串	null	是	通过旧版 Cypher 投影用于匿名图创建的节点选择 Cypher 查询。
relationshipQuery	字符串	null	是	通过旧版 Cypher 投影用于匿名图创建的关系选择 Cypher 查询。
nodeProperties	字符串、字符串列表或映射	null	是	在匿名图创建期间要投影的节点属性。
relationshipProperties	字符串、字符串列表或映射	null	是	在匿名图创建期间要投影的关系属性。
concurrency	整数	4 ^[1]	是	运行算法的并发线程数。
jobId	字符串	内部生成	是	可用于更轻松地跟踪算法进度的 ID。
logProgress	布尔值	true	是	如果禁用，则不会记录进度百分比。
readConcurrency	整数	'concurrency' 的值	是	用于创建图的并发线程数。
1. 在GDS 会话中，默认值为可用处理器数量

估算图的内存需求

gds.graph.project 过程也支持 .estimate 来估算仅用于图的内存使用量。这些过程不接受图名作为第一个参数，因为它们实际上不投影图。

语法

CALL gds.graph.project.estimate(nodeProjection: String|List|Map, relationshipProjection: String|List|Map, configuration: Map)
YIELD requiredMemory, treeView, mapView, bytesMin, bytesMax, heapPercentageMin, heapPercentageMax, nodeCount, relationshipCount

nodeProjection 和 relationshipProjection 参数遵循与 gds.graph.project 中相同的语法。

表 4. 参数
名称	类型	默认值	可选	描述
nodeProjection	字符串、列表或映射	-	否	要估算的节点投影。
relationshipProjection	字符串、列表或映射	-	否	要估算的关系投影。
configuration	映射	{}	是	其他配置，例如并发。

运行 gds.graph.project.estimate 的结果与上述算法内存估算结果的形式相同。

还可以通过明确指定其节点和关系数量来估算虚构图的内存。使用此功能，可以估算任意大小图的内存消耗。

为此，请使用以下配置选项

表 5. 配置
名称	类型	默认值	可选	描述
nodeCount	整数	0	是	虚构图中的节点数。
relationshipCount	整数	0	是	虚构图中的关系数。

估算虚构图时，必须指定语法有效的 nodeProjection 和 relationshipProjection。但是，在虚构图的情况下，建议为两者都指定 '*'，因为这不会干扰上述指定的值。

以下查询是估算一个包含 100 个节点和 1000 个关系的虚构图的示例。

示例

CALL gds.graph.project.estimate('*', '*', {
  nodeCount: 100,
  relationshipCount: 1000,
  nodeProperties: 'foo',
  relationshipProperties: 'bar'
})
YIELD requiredMemory, treeView, mapView, bytesMin, bytesMax, nodeCount, relationshipCount

表 6. 结果
requiredMemory	bytesMin	bytesMax	nodeCount	relationshipCount
"593 KiB"	607576	607576	100	1000

gds.graph.project.cypher 过程必须执行 nodeQuery 和 relationshipQuery，以便计算图中节点和关系的数量。

语法

CALL gds.graph.project.cypher.estimate(nodeQuery: String, relationshipQuery: String, configuration: Map)
YIELD requiredMemory, treeView, mapView, bytesMin, bytesMax, heapPercentageMin, heapPercentageMax, nodeCount, relationshipCount

表 7. 参数
名称	类型	默认值	可选	描述
nodeQuery	字符串	-	否	要估算的节点查询。
relationshipQuery	字符串	-	否	要估算的关系查询。
configuration	映射	{}	是	其他配置，例如并发。

自动估算和执行阻塞

GDS 库中所有支持估算的程序，包括图创建，都会在其执行开始时进行估算检查。这包括所有执行模式，但不包括 estimate 过程本身。

如果估算检查可以确定当前可用内存不足以执行操作，则该操作将被中止并报告错误。错误将包含估算的详细信息以及估算时的可用内存。

这种堆控制逻辑是限制性的，因为它只阻止确定无法适应内存的执行。它不保证通过堆控制的执行不会耗尽内存而成功。因此，在大数据集上运行算法或创建图之前，仍然有必要先运行估算模式，以便查看估算的所有详细信息。

考虑的空闲内存基于 Java 运行时系统信息。可以通过从目录中删除未使用的图，或在启动 Neo4j 实例之前增加最大堆大小来增加空闲内存量。

绕过堆控制

有时，如果堆控制过于严格，您会希望能够绕过它。您可能对您的特定过程调用在内存方面的行为有所了解；或者您可能只是想冒险一试，例如因为您收到的内存估算值非常接近系统限制。

对于这种用例，我们提供了 sudo 模式，它允许您手动跳过堆控制并无论如何都运行您的过程。Sudo 模式默认关闭以保护用户 - 如果我们发现您可能长时间运行的过程无法成功完成，我们将快速失败。

要启用 sudo 模式，在调用过程时添加 sudo 参数。以下是在 sudo 模式下调用流行的 Louvain 社区检测算法的示例

在 sudo 模式下运行 Louvain

CALL gds.louvain.write('myGraph', { writeProperty: 'community', sudo: true })
YIELD communityCount, modularity, modularities

在调用过程时不小心启用 sudo 模式，导致内存不足，不会对您的安装造成严重损害，但会浪费您的时间。