模块化优化

词汇表

有向

有向特征。该算法在有向图上定义良好。

有向

有向特征。该算法忽略图的方向。

有向

有向特征。该算法不能在有向图上运行。

无向

无向特征。该算法在无向图上定义良好。

无向

无向特征。该算法忽略图的无向性。

异构节点

异构节点 完全支持。该算法能够区分不同类型的节点。

异构节点

异构节点 允许。该算法对所有选定的节点进行类似处理,而不管其标签如何。

异构关系

异构关系 完全支持。该算法能够区分不同类型的关系。

异构关系

异构关系 允许。该算法对所有选定的关系进行类似处理,而不管其类型如何。

加权关系

加权特征。该算法支持使用关系属性作为权重,通过 relationshipWeightProperty 配置参数指定。

加权关系

加权特征。该算法将每个关系视为同等重要,丢弃任何关系权重的值。

简介

模块化优化算法试图根据其模块化来检测图中的社区。模块化是衡量图结构的指标,衡量模块或社区内连接的密度。模块化得分高的图将在社区内具有许多连接,但只有少数指向其他社区。该算法将探索每个节点,如果将其社区更改为其相邻节点之一,其模块化得分是否可能会提高。

有关此算法的更多信息,请参阅

运行此算法需要足够的内存可用性。在运行此算法之前,我们建议您阅读 内存估算

语法

每个模式的模块化优化语法
在命名图上以流模式运行模块化优化。
CALL gds.modularityOptimization.stream(graphName: String, configuration: Map)
YIELD
  nodeId: Integer,
  communityId: Integer
表 1. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

配置

映射

{}

算法特定和/或图过滤的配置。

表 2. 配置
名称 类型 默认值 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。包含具有任何给定标签的节点。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。包含具有任何给定类型的关系。

并发度

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

一个 ID,可用于更轻松地跟踪算法的进度。

logProgress

布尔值

true

如果禁用,则不会记录进度百分比。

maxIterations

整数

10

要运行的最大迭代次数。

容差

浮点数

0.0001

迭代之间模块度的最小变化。如果模块度的变化小于容差值,则结果被认为是稳定的,并且算法返回。

seedProperty

字符串

n/a

用于定义初始标签集(必须是非负数)。

consecutiveIds

布尔值

false

标志,用于确定组件标识符是否映射到连续的 ID 空间(需要额外的内存)。

relationshipWeightProperty

字符串

null

用作权重的关系属性的名称。如果未指定,则算法以未加权的方式运行。

minCommunitySize

整数

0

仅返回社区大小大于或等于给定值的社区内的节点。

表 3. 结果
名称 类型 描述

nodeId

整数

节点 ID

communityId

整数

社区 ID

在 stats 模式下对命名图运行模块度优化。
CALL gds.modularityOptimization.stats(graphName: String, configuration: Map)
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  communityCount: Integer,
  communityDistribution: Map,
  modularity: Float,
  ranIterations: Integer,
  didConverge: Boolean,
  nodes: Integer,
  configuration: Map
表 4. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

配置

映射

{}

算法特定和/或图过滤的配置。

表 5. 一般配置
名称 类型 默认值 可选 描述

并发度

整数

4

用于运行算法的并发线程数。还提供“readConcurrency”和“writeConcurrency”的默认值。

writeConcurrency

整数

“concurrency”的值

用于写入结果的并发线程数(适用于 WRITE 模式)。

logProgress

布尔值

true

如果禁用,则不会记录进度百分比。

表 6. 算法特定配置
名称 类型 默认值 可选 描述

maxIterations

整数

10

要运行的最大迭代次数。

容差

浮点数

0.0001

迭代之间模块度的最小变化。如果模块度的变化小于容差值,则结果被认为是稳定的,并且算法返回。

seedProperty

字符串

n/a

用于定义初始标签集(必须是非负数)。

consecutiveIds

布尔值

false

标志,用于确定组件标识符是否映射到连续的 ID 空间(需要额外的内存)。

relationshipWeightProperty

字符串

null

用作权重的关系属性的名称。如果未指定,则算法以未加权的方式运行。

表 7. 结果
名称 类型 描述

preProcessingMillis

整数

预处理数据所用的毫秒数。

computeMillis

整数

运行算法所用的毫秒数。

postProcessingMillis

整数

计算百分位数和社区计数所用的毫秒数。

节点

整数

考虑的节点数。

didConverge

布尔值

如果算法在提供的最大迭代次数内收敛到稳定的模块度分数,则为真。

ranIterations

整数

运行的迭代次数。

模块度

浮点数

最终的模块度分数。

communityCount

整数

找到的社区数量。

communityDistribution

映射

包含社区大小的最小值、最大值、平均值以及第 50、75、90、95、99 和 999 百分位数。

配置

映射

用于运行算法的配置。

在 mutate 模式下对命名图运行模块度优化。
CALL gds.modularityOptimization.mutate(graphName: String, configuration: Map})
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  mutateMillis: Integer,
  communityCount: Integer,
  communityDistribution: Map,
  modularity: Float,
  ranIterations: Integer,
  didConverge: Boolean,
  nodes: Integer,
  configuration: Map
表 8. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

配置

映射

{}

算法特定和/或图过滤的配置。

mutate 模式的配置类似于 write 模式。无需指定 writeProperty,我们需要指定 mutateProperty。此外,在 mutate 模式下无法指定 writeConcurrency

表 9. 结果
名称 类型 描述

preProcessingMillis

整数

预处理数据所用的毫秒数。

computeMillis

整数

运行算法所用的毫秒数。

mutateMillis

整数

向投影图添加属性所用的毫秒数。

postProcessingMillis

整数

计算百分位数和社区计数所用的毫秒数。

节点

整数

考虑的节点数。

didConverge

布尔值

如果算法在提供的最大迭代次数内收敛到稳定的模块度分数,则为真。

ranIterations

整数

运行的迭代次数。

模块度

浮点数

最终的模块度分数。

communityCount

整数

找到的社区数量。

communityDistribution

映射

包含社区大小的最小值、最大值、平均值以及第 50、75、90、95、99 和 999 百分位数。

配置

映射

用于运行算法的配置。

在 write 模式下对命名图运行模块度优化。
CALL gds.modularityOptimization.write(graphName: String, configuration: Map})
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  writeMillis: Integer,
  communityCount: Integer,
  communityDistribution: Map,
  modularity: Float,
  ranIterations: Integer,
  didConverge: Boolean,
  nodes: Integer,
  configuration: Map
表 10. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

配置

映射

{}

算法特定和/或图过滤的配置。

表 11. 一般配置
名称 类型 默认值 可选 描述

并发度

整数

4

用于运行算法的并发线程数。还提供“readConcurrency”和“writeConcurrency”的默认值。

writeConcurrency

整数

“concurrency”的值

用于写入结果的并发线程数(适用于 WRITE 模式)。

logProgress

布尔值

true

如果禁用,则不会记录进度百分比。

表 12. 算法特定配置
名称 类型 默认值 可选 描述

seedProperty

字符串

n/a

用于设置节点的初始社区。属性值需要是一个数字。

writeProperty

字符串

n/a

写回特定节点所属分区 ID 的属性名称。

maxIterations

整数

10

模块度优化在每个级别运行的最大迭代次数。

容差

浮点数

0.0001

迭代之间模块度的最小变化。如果模块度的变化小于容差值,则结果被认为是稳定的,并且算法返回。

consecutiveIds

布尔值

false

标志,用于确定组件标识符是否映射到连续的 ID 空间(需要额外的内存)。

relationshipWeightProperty

字符串

null

用作权重的关系属性的名称。如果未指定,则算法以未加权的方式运行。

minCommunitySize

整数

0

仅将大小大于或等于给定值的社区的社区 ID 写入 Neo4j。

表 13. 结果
名称 类型 描述

preProcessingMillis

整数

预处理数据所用的毫秒数。

computeMillis

整数

运行算法所用的毫秒数。

writeMillis

整数

写回结果数据所用的毫秒数。

postProcessingMillis

整数

计算百分位数和社区计数所用的毫秒数。

节点

整数

考虑的节点数。

didConverge

布尔值

如果算法在提供的最大迭代次数内收敛到稳定的模块度分数,则为真。

ranIterations

整数

运行的迭代次数。

模块度

浮点数

最终的模块度分数。

communityCount

整数

找到的社区数量。

communityDistribution

映射

包含社区大小的最小值、最大值、平均值以及第 50、75、90、95、99 和 999 百分位数。

配置

映射

用于运行算法的配置。

示例

以下所有示例都应在空数据库中运行。

这些示例使用 Cypher 投影 作为规范。原生投影将在未来的版本中弃用。

考虑以下 Cypher 语句创建的图

CREATE
  (a:Person {name:'Alice'})
, (b:Person {name:'Bridget'})
, (c:Person {name:'Charles'})
, (d:Person {name:'Doug'})
, (e:Person {name:'Elton'})
, (f:Person {name:'Frank'})
, (a)-[:KNOWS {weight: 0.01}]->(b)
, (a)-[:KNOWS {weight: 5.0}]->(e)
, (a)-[:KNOWS {weight: 5.0}]->(f)
, (b)-[:KNOWS {weight: 5.0}]->(c)
, (b)-[:KNOWS {weight: 5.0}]->(d)
, (c)-[:KNOWS {weight: 0.01}]->(e)
, (f)-[:KNOWS {weight: 0.01}]->(d)

该图由两个中心节点“Alice”和“Bridget”组成,每个节点都有两个邻居。此外,“Alice”的每个邻居都连接到“Bridget”的邻居之一。查看关系的权重,可以看出从两个中心节点到其邻居的连接非常强,而这些组之间的连接很弱。因此,模块度优化算法应检测到两个社区:“Alice”和“Bob”以及各自的邻居。

以下语句将投影图并将其存储在图目录中。
MATCH (source:Person)-[r:KNOWS]->(target:Person)
RETURN gds.graph.project(
  'myGraph',
  source,
  target,
  { relationshipProperties: r { .weight } },
  { undirectedRelationshipTypes: ['*'] }
)

内存估算

首先,我们将使用 estimate 过程估算运行算法的成本。这可以使用任何执行模式完成。在本例中,我们将使用 write 模式。估算算法有助于了解在您的图上运行算法将产生的内存影响。当您稍后实际在其中一种执行模式下运行算法时,系统将执行估算。如果估算表明执行很有可能超过其内存限制,则会禁止执行。有关此内容的更多信息,请参阅 自动估算和执行阻止

有关 estimate 的更多详细信息,请参阅 内存估算

以下将估算运行算法所需的内存:
CALL gds.modularityOptimization.write.estimate('myGraph', { relationshipWeightProperty: 'weight', writeProperty: 'community' })
YIELD nodeCount, relationshipCount, bytesMin, bytesMax, requiredMemory
表 14. 结果
nodeCount relationshipCount bytesMin bytesMax requiredMemory

6

14

5160

5248

“[5160 字节 ... 5248 字节]”

stream 执行模式下,算法返回每个节点的社区。这使我们能够直接检查结果或在 Cypher 中对其进行后处理,而不会产生任何副作用。

有关 stream 模式的更多详细信息,请参阅

在流模式下运行模块度优化算法
CALL gds.modularityOptimization.stream('myGraph', { relationshipWeightProperty: 'weight' })
YIELD nodeId, communityId
RETURN gds.util.asNode(nodeId).name AS name, communityId
ORDER BY name
表 15. 结果
名称 communityId

“Alice”

3

“Bridget”

1

“Charles”

1

“Doug”

1

“Elton”

3

“Frank”

3

统计

stats 执行模式下,算法返回一行包含算法结果摘要的行。此执行模式没有任何副作用。通过检查 computeMillis 返回项,它对于评估算法性能很有用。在下面的示例中,我们将省略返回计时。过程的完整签名可以在 语法部分 中找到。

有关 stats 模式的更多详细信息,请参阅 统计

在统计模式下运行模块度优化算法
CALL gds.modularityOptimization.stats('myGraph', { relationshipWeightProperty: 'weight' })
YIELD nodes, communityCount, ranIterations, didConverge
表 16. 结果
节点 communityCount ranIterations didConverge

6

2

2

true

写入

write 执行模式通过一个重要的副作用扩展了 stats 模式:将每个节点的社区作为属性写入 Neo4j 数据库。新属性的名称使用必需的配置参数 writeProperty 指定。结果是一行类似于 stats 的摘要行,但包含一些其他指标。write 模式使能够直接将结果持久化到数据库中。

有关 write 模式的更多详细信息,请参阅 写入

在 write 模式下运行模块度优化算法
CALL gds.modularityOptimization.write('myGraph', { relationshipWeightProperty: 'weight', writeProperty: 'community' })
YIELD nodes, communityCount, ranIterations, didConverge
表 17. 结果
节点 communityCount ranIterations didConverge

6

2

2

true

使用 write 模式时,过程将返回有关算法执行的信息。在本例中,我们返回处理的节点数、分配给图中节点的社区数、迭代次数以及算法是否收敛的信息。

在不指定 relationshipWeightProperty 的情况下运行算法将默认所有关系权重为 1.0。

变异

mutate 执行模式通过一个重要的副作用扩展了 stats 模式:使用包含该节点社区的新节点属性更新命名图。新属性的名称使用必需的配置参数 mutateProperty 指定。结果是一行类似于 stats 的摘要行,但包含一些其他指标。当多个算法结合使用时,mutate 模式特别有用。

有关 mutate 模式的更多详细信息,请参阅 变异

在 mutate 模式下运行模块度优化算法
CALL gds.modularityOptimization.mutate('myGraph', { relationshipWeightProperty: 'weight', mutateProperty: 'community' })
YIELD nodes, communityCount, ranIterations, didConverge
表 18. 结果
节点 communityCount ranIterations didConverge

6

2

2

true

使用 mutate 模式时,过程将返回有关算法执行的信息,如 write 模式。