广度优先搜索

此功能在 Aura Graph Analytics Serverless 中不可用。

术语表

有向

有向特性。该算法在有向图上定义良好。

有向

有向特性。该算法忽略图的方向。

有向

有向特性。该算法不在有向图上运行。

无向

无向特性。该算法在无向图上定义良好。

无向

无向特性。该算法忽略图的无向性。

异构节点

异构节点完全支持。该算法能够区分不同类型的节点。

异构节点

异构节点允许。该算法无论节点的标签如何,都以相似的方式处理所有选定的节点。

异构关系

异构关系完全支持。该算法能够区分不同类型的关系。

异构关系

异构关系允许。该算法无论关系的类型如何,都以相似的方式处理所有选定的关系。

加权关系

加权特性。该算法支持将关系属性用作权重,通过 relationshipWeightProperty 配置参数指定。

加权关系

加权特性。该算法将每个关系视为同等重要,忽略任何关系权重的值。

介绍

广度优先搜索算法是一种图遍历算法,给定一个起始节点,它会按照距离递增的顺序访问节点,参见 https://en.wikipedia.org/wiki/Breadth-first_search。一个相关的算法是深度优先搜索算法,深度优先搜索。该算法对于搜索非常有用,尤其是在找到所需节点的可能性随距离增加而降低的情况下。遍历支持多种终止条件,例如达到多个目标节点中的一个,达到最大深度,用尽给定遍历关系成本的预算,或者仅仅遍历整个图。该过程的输出包含有关访问了哪些节点以及访问顺序的信息。

语法

按模式划分的广度优先搜索语法
在流模式下运行广度优先搜索
CALL gds.bfs.stream(
  graphName: string,
  configuration: map
)
YIELD
  sourceNode: int,
  nodeIds: int,
  path: Path
表 1. 参数
名称 类型 默认值 可选 描述

graphName

字符串

不适用

存储在目录中的图的名称。

configuration

映射

{}

算法特定和/或图过滤的配置。

表 2. 配置
名称 类型 默认值 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。包含任何给定标签的节点将被包括在内。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。包含任何给定类型的关系将被包括在内。

concurrency

整数

4 [1]

运行算法时使用的并发线程数。

jobId

字符串

内部生成

可提供的 ID,以便更轻松地跟踪算法进度。

logProgress

布尔值

true

如果禁用,则不会记录进度百分比。

sourceNode

整数

不适用

遍历起始节点的节点 ID。

targetNodes

整数列表

空列表

目标节点的 ID。当访问任何目标节点时,遍历终止。

maxDepth

整数

-1

从源节点到访问节点的最大距离。

1. 在 GDS 会话中,默认值为可用处理器数量

表 3. 结果
名称 类型 描述

sourceNode

整数或节点

遍历起始节点的节点 ID。

nodeIds

整数列表

遍历期间访问的所有节点的 ID。

path

路径

包含遍历期间访问的所有节点的路径。

在流模式下运行广度优先搜索
CALL gds.bfs.mutate(
  graphName: string,
  configuration: map
)
YIELD
  relationshipsWritten: Integer,
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  mutateMillis: Integer,
  configuration: Map
表 4. 参数
名称 类型 默认值 可选 描述

graphName

字符串

不适用

存储在目录中的图的名称。

configuration

映射

{}

算法特定和/或图过滤的配置。

表 5. 配置
名称 类型 默认值 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。包含任何给定标签的节点将被包括在内。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。包含任何给定类型的关系将被包括在内。

concurrency

整数

4 [2]

运行算法时使用的并发线程数。

jobId

字符串

内部生成

可提供的 ID,以便更轻松地跟踪算法进度。

logProgress

布尔值

true

如果禁用,则不会记录进度百分比。

sourceNode

整数

不适用

遍历起始节点的节点 ID。

targetNodes

整数列表

空列表

目标节点的 ID。当访问任何目标节点时,遍历终止。

maxDepth

整数

-1

从源节点到访问节点的最大距离。

mutateRelationshipType

字符串

不适用

用于写入投影图的新关系的关系类型。

2. 在 GDS 会话中,默认值为可用处理器数量

表 6. 结果
名称 类型 描述

preProcessingMillis

整数

图预处理的毫秒数。

computeMillis

整数

运行算法的毫秒数。

postProcessingMillis

整数

未使用。

mutateMillis

整数

向投影图添加关系的毫秒数。

relationshipsWritten

整数

添加的关系数量。

configuration

映射

用于运行算法的配置。

在统计模式下运行广度优先搜索
CALL gds.bfs.stats(
  graphName: string,
  configuration: map
)
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  configuration: Map
表 7. 参数
名称 类型 默认值 可选 描述

graphName

字符串

不适用

存储在目录中的图的名称。

configuration

映射

{}

算法特定和/或图过滤的配置。

表 8. 配置
名称 类型 默认值 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。包含任何给定标签的节点将被包括在内。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。包含任何给定类型的关系将被包括在内。

concurrency

整数

4 [3]

运行算法时使用的并发线程数。

jobId

字符串

内部生成

可提供的 ID,以便更轻松地跟踪算法进度。

logProgress

布尔值

true

如果禁用,则不会记录进度百分比。

sourceNode

整数

不适用

遍历起始节点的节点 ID。

targetNodes

整数列表

空列表

目标节点的 ID。当访问任何目标节点时,遍历终止。

maxDepth

整数

-1

从源节点到访问节点的最大距离。

3. 在 GDS 会话中,默认值为可用处理器数量

表 9. 结果
名称 类型 描述

preProcessingMillis

整数

图预处理的毫秒数。

computeMillis

整数

运行算法的毫秒数。

postProcessingMillis

整数

未使用。

configuration

映射

用于运行算法的配置。

示例

所有以下示例都应在一个空数据库中运行。

示例通常使用 Cypher 投影。原生投影将在未来的版本中弃用。

在本节中,我们将展示在具体图上运行广度优先搜索算法的示例。目的是说明结果的样式,并提供在实际设置中如何使用该算法的指南。我们将在一个小型图上进行操作,该图包含少量按特定模式连接的节点。示例图如下所示

Visualization of the example graph

考虑以下 Cypher 语句投影的图

CREATE
       (nA:Node {name: 'A'}),
       (nB:Node {name: 'B'}),
       (nC:Node {name: 'C'}),
       (nD:Node {name: 'D'}),
       (nE:Node {name: 'E'}),

       (nA)-[:REL]->(nB),
       (nA)-[:REL]->(nC),
       (nB)-[:REL]->(nE),
       (nC)-[:REL]->(nD)
以下语句将投影图并将其存储在图目录中。
MATCH (source:Node)-[r:REL]->(target:Node)
RETURN gds.graph.project(
  'myGraph',
  source,
  target
)

在以下示例中,我们将演示在此图上使用广度优先搜索算法。

内存估算

首先,我们将使用 estimate 过程估算运行算法的成本。这可以通过任何执行模式完成。在此示例中,我们将使用 stream 模式。估算算法有助于了解在图上运行算法将产生的内存影响。当您稍后实际以某种执行模式运行算法时,系统将执行估算。如果估算显示执行极有可能超出其内存限制,则执行将被禁止。要了解更多信息,请参阅 自动估算和执行阻止

有关 estimate 的更多详细信息,请参阅 内存估算

以下将估算在流模式下运行算法所需的内存
MATCH (source:Node {name: 'A'})
CALL gds.bfs.stream.estimate('myGraph', {
    sourceNode: source
})
YIELD nodeCount, relationshipCount, bytesMin, bytesMax, requiredMemory
RETURN nodeCount, relationshipCount, bytesMin, bytesMax, requiredMemory
表 10. 结果
nodeCount relationshipCount bytesMin bytesMax requiredMemory

5

4

536

536

"536 字节"

stream 执行模式下,算法以遍历顺序返回每个关系的路径。这使我们能够直接检查结果或在 Cypher 中对其进行后处理,而没有任何副作用。

有关 stream 模式的更多详细信息,请参阅

以下将运行算法并流式传输结果
MATCH (source:Node{name:'A'})
CALL gds.bfs.stream('myGraph', {
  sourceNode: source
})
YIELD path
RETURN path

如果我们不指定任何提前终止选项,算法将遍历整个图。在下图中,我们可以看到节点的遍历顺序,用关系类型 NEXT 标记

Visualization of Breadth First Search stream without early termination conditions
使用目标节点运行广度优先搜索算法
MATCH (source:Node{name:'A'}), (d:Node{name:'D'}), (e:Node{name:'E'})
WITH source, [d, e] AS targetNodes
CALL gds.bfs.stream('myGraph', {
  sourceNode: source,
  targetNodes: targetNodes
})
YIELD path
RETURN path

在下图中,我们可以看到节点的遍历顺序,用关系类型 NEXT 标记。值得注意的是,图中没有节点 D,这是因为算法首先到达目标节点 E 并终止了执行,导致 D 未被访问。

Visualization of Breadth First Search stream with target nodes
使用 maxDepth 运行广度优先搜索算法
MATCH (source:Node{name:'A'})
CALL gds.bfs.stream('myGraph', {
  sourceNode: source,
  maxDepth: 1
})
YIELD path
RETURN path

在下图中,我们可以看到节点的遍历顺序,用关系类型 NEXT 标记。节点 DE 未被访问,因为它们与节点 A 的距离为 2。

Visualization of Breadth First Search stream with max depth

修改

mutate 执行模式用新关系更新命名图。广度优先搜索算法返回的路径是一个线图,其中节点按算法访问的顺序出现。关系类型必须使用 mutateRelationshipType 选项配置。

当多个算法结合使用时,mutate 模式特别有用。

有关 mutate 模式的更多详细信息,请参阅 修改

广度优先搜索 mutate 支持与 stream 模式相同的提前终止条件。

以下将在 mutate 模式下运行算法
MATCH (source:Node{name:'A'})
CALL gds.bfs.mutate('myGraph', {
  sourceNode: source,
  mutateRelationshipType: 'BFS'
})
YIELD relationshipsWritten
RETURN relationshipsWritten
表 11. 结果
relationshipsWritten

4

执行上述查询后,内存中的图将更新为类型为 BFS 的新关系。

即使输入图是无向的,生成的关系也始终是有向的。

© . All rights reserved.