三角形计数
词汇表
- 有向
-
有向特性。该算法在有向图上定义良好。
- 有向
-
有向特性。该算法忽略图的方向。
- 有向
-
有向特性。该算法不在有向图上运行。
- 无向
-
无向特性。该算法在无向图上定义良好。
- 无向
-
无向特性。该算法忽略图的无向性。
- 异构节点
-
异构节点完全支持。该算法能够区分不同类型的节点。
- 异构节点
-
允许异构节点。该算法对所有选定的节点一视同仁,无论其标签如何。
- 异构关系
-
异构关系完全支持。该算法能够区分不同类型的关系。
- 异构关系
-
允许异构关系。该算法对所有选定的关系一视同仁,无论其类型如何。
- 加权关系
-
加权特性。该算法支持将关系属性用作权重,通过 relationshipWeightProperty 配置参数指定。
- 加权关系
-
加权特性。该算法将每个关系视为同等重要,忽略任何关系权重的值。
简介
三角形计数算法计算图中每个节点的三角形数量。三角形是三个节点的集合,其中每个节点都与其他两个节点有关系。在图论术语中,这有时被称为 3-clique。GDS 库中的三角形计数算法仅在无向图中查找三角形。
三角形计数在社交网络分析中越来越受欢迎,它用于检测社区并衡量这些社区的凝聚力。它还可以用于确定图的稳定性,并经常用作网络指标(例如聚类系数)计算的一部分。三角形计数算法也用于计算局部聚类系数。
有关此算法的更多信息,请参阅
-
三角形计数和聚类系数已被证明可作为特征,用于将给定网站分类为垃圾邮件或非垃圾邮件内容。这在“大规模图中局部三角形计数的有效半流式算法”中有所描述。
语法
本节介绍在每种执行模式下执行三角形计数算法所使用的语法。我们将介绍该语法的命名图变体。要了解有关通用语法变体的更多信息,请参阅语法概述。
CALL gds.triangleCount.stream(
graphName: String,
configuration: Map
)
YIELD
nodeId: Integer,
triangleCount: Integer
名称 | 类型 | 默认值 | 可选 | 描述 |
---|---|---|---|---|
graphName |
字符串 |
|
否 |
存储在目录中的图的名称。 |
configuration |
映射 |
|
是 |
用于算法特定功能和/或图过滤的配置。 |
名称 | 类型 | 默认值 | 可选 | 描述 |
---|---|---|---|---|
字符串列表 |
|
是 |
使用给定的节点标签过滤命名图。将包含具有任何给定标签的节点。 |
|
字符串列表 |
|
是 |
使用给定的关系类型过滤命名图。将包含具有任何给定类型的关系。 |
|
整数 |
|
是 |
用于运行算法的并发线程数。 |
|
字符串 |
|
是 |
一个可提供的 ID,以便更轻松地跟踪算法的进度。 |
|
布尔值 |
|
是 |
如果禁用,将不记录进度百分比。 |
|
maxDegree |
整数 |
|
是 |
如果节点的度数高于此值,则算法将不考虑该节点。这些节点的三角形计数将为 |
名称 | 类型 | 描述 |
---|---|---|
nodeId |
整数 |
节点 ID。 |
triangleCount |
整数 |
节点所属的三角形数量。如果节点已通过 |
CALL gds.triangleCount.stats(
graphName: String,
configuration: Map
)
YIELD
globalTriangleCount: Integer,
nodeCount: Integer,
preProcessingMillis: Integer,
computeMillis: Integer,
postProcessingMillis: Integer,
configuration: Map
名称 | 类型 | 默认值 | 可选 | 描述 |
---|---|---|---|---|
graphName |
字符串 |
|
否 |
存储在目录中的图的名称。 |
configuration |
映射 |
|
是 |
用于算法特定功能和/或图过滤的配置。 |
名称 | 类型 | 默认值 | 可选 | 描述 |
---|---|---|---|---|
字符串列表 |
|
是 |
使用给定的节点标签过滤命名图。将包含具有任何给定标签的节点。 |
|
字符串列表 |
|
是 |
使用给定的关系类型过滤命名图。将包含具有任何给定类型的关系。 |
|
整数 |
|
是 |
用于运行算法的并发线程数。 |
|
字符串 |
|
是 |
一个可提供的 ID,以便更轻松地跟踪算法的进度。 |
|
布尔值 |
|
是 |
如果禁用,将不记录进度百分比。 |
|
maxDegree |
整数 |
|
是 |
如果节点的度数高于此值,则算法将不考虑该节点。这些节点的三角形计数将为 |
名称 | 类型 | 描述 |
---|---|---|
globalTriangleCount |
整数 |
图中三角形的总数。 |
nodeCount |
整数 |
图中节点数量。 |
preProcessingMillis |
整数 |
图预处理的毫秒数。 |
computeMillis |
整数 |
运行算法的毫秒数。 |
postProcessingMillis |
整数 |
计算全局指标的毫秒数。 |
configuration |
映射 |
用于运行算法的配置。 |
CALL gds.triangleCount.mutate(
graphName: String,
configuration: Map
)
YIELD
globalTriangleCount: Integer,
nodeCount: Integer,
nodePropertiesWritten: Integer,
preProcessingMillis: Integer,
computeMillis: Integer,
postProcessingMillis: Integer,
mutateMillis: Integer,
configuration: Map
名称 | 类型 | 默认值 | 可选 | 描述 |
---|---|---|---|---|
graphName |
字符串 |
|
否 |
存储在目录中的图的名称。 |
configuration |
映射 |
|
是 |
用于算法特定功能和/或图过滤的配置。 |
名称 | 类型 | 默认值 | 可选 | 描述 |
---|---|---|---|---|
mutateProperty |
字符串 |
|
否 |
三角形计数写入的 GDS 图中的节点属性。 |
字符串列表 |
|
是 |
使用给定的节点标签过滤命名图。 |
|
字符串列表 |
|
是 |
使用给定的关系类型过滤命名图。 |
|
整数 |
|
是 |
用于运行算法的并发线程数。 |
|
字符串 |
|
是 |
一个可提供的 ID,以便更轻松地跟踪算法的进度。 |
|
maxDegree |
整数 |
|
是 |
如果节点的度数高于此值,则算法将不考虑该节点。这些节点的三角形计数将为 |
名称 | 类型 | 描述 |
---|---|---|
globalTriangleCount |
整数 |
图中三角形的总数。 |
nodeCount |
整数 |
图中节点数量。 |
nodePropertiesWritten |
整数 |
添加到投影图中的属性数量。 |
preProcessingMillis |
整数 |
图预处理的毫秒数。 |
computeMillis |
整数 |
运行算法的毫秒数。 |
postProcessingMillis |
整数 |
计算全局指标的毫秒数。 |
mutateMillis |
整数 |
将属性添加到投影图的毫秒数。 |
configuration |
映射 |
用于运行算法的配置。 |
CALL gds.triangleCount.write(
graphName: String,
configuration: Map
)
YIELD
globalTriangleCount: Integer,
nodeCount: Integer,
nodePropertiesWritten: Integer,
preProcessingMillis: Integer,
computeMillis: Integer,
postProcessingMillis: Integer,
writeMillis: Integer,
configuration: Map
名称 | 类型 | 默认值 | 可选 | 描述 |
---|---|---|---|---|
graphName |
字符串 |
|
否 |
存储在目录中的图的名称。 |
configuration |
映射 |
|
是 |
用于算法特定功能和/或图过滤的配置。 |
名称 | 类型 | 默认值 | 可选 | 描述 |
---|---|---|---|---|
mutateProperty |
字符串 |
|
否 |
三角形计数写入的 GDS 图中的节点属性。 |
字符串列表 |
|
是 |
使用给定的节点标签过滤命名图。 |
|
字符串列表 |
|
是 |
使用给定的关系类型过滤命名图。 |
|
整数 |
|
是 |
用于运行算法的并发线程数。 |
|
字符串 |
|
是 |
一个可提供的 ID,以便更轻松地跟踪算法的进度。 |
|
maxDegree |
整数 |
|
是 |
如果节点的度数高于此值,则算法将不考虑该节点。这些节点的三角形计数将为 |
名称 | 类型 | 描述 |
---|---|---|
globalTriangleCount |
整数 |
图中三角形的总数。 |
nodeCount |
整数 |
图中节点数量。 |
nodePropertiesWritten |
整数 |
写入 Neo4j 的属性数量。 |
preProcessingMillis |
整数 |
图预处理的毫秒数。 |
computeMillis |
整数 |
运行算法的毫秒数。 |
postProcessingMillis |
整数 |
计算全局指标的毫秒数。 |
writeMillis |
整数 |
将结果写回 Neo4j 的毫秒数。 |
configuration |
映射 |
用于运行算法的配置。 |
三角形列表
除了标准执行模式之外,还有一个 gds.triangles
过程,可用于列出图中所有的三角形。
此功能处于 Alpha 阶段。有关功能层级的更多信息,请参阅API 层级。
CALL gds.triangles(
graphName: String,
configuration: Map
)
YIELD nodeA, nodeB, nodeC
名称 | 类型 | 默认值 | 可选 | 描述 |
---|---|---|---|---|
graphName |
字符串 |
|
否 |
存储在目录中的图的名称。 |
configuration |
映射 |
|
是 |
用于算法特定功能和/或图过滤的配置。 |
名称 | 类型 | 默认值 | 可选 | 描述 |
---|---|---|---|---|
字符串列表 |
|
是 |
使用给定的节点标签过滤命名图。将包含具有任何给定标签的节点。 |
|
字符串列表 |
|
是 |
使用给定的关系类型过滤命名图。将包含具有任何给定类型的关系。 |
|
整数 |
|
是 |
用于运行算法的并发线程数。 |
|
字符串 |
|
是 |
一个可提供的 ID,以便更轻松地跟踪算法的进度。 |
|
布尔值 |
|
是 |
如果禁用,将不记录进度百分比。 |
|
名称 | 类型 | 描述 |
---|---|---|
nodeA |
整数 |
给定三角形中第一个节点的 ID。 |
nodeB |
整数 |
给定三角形中第二个节点的 ID。 |
nodeC |
整数 |
给定三角形中第三个节点的 ID。 |
示例
以下所有示例都应在空数据库中运行。 这些示例通常使用Cypher 投影。原生投影将在未来的版本中弃用。 |
在本节中,我们将展示在具体图上运行三角形计数算法的示例。目的是说明结果是什么样子,并提供如何在实际设置中使用该算法的指南。我们将在一个由少数节点以特定模式连接的小型社交网络图上进行此操作。示例图如下所示

CREATE
(alice:Person {name: 'Alice'}),
(michael:Person {name: 'Michael'}),
(karin:Person {name: 'Karin'}),
(chris:Person {name: 'Chris'}),
(will:Person {name: 'Will'}),
(mark:Person {name: 'Mark'}),
(michael)-[:KNOWS]->(karin),
(michael)-[:KNOWS]->(chris),
(will)-[:KNOWS]->(michael),
(mark)-[:KNOWS]->(michael),
(mark)-[:KNOWS]->(will),
(alice)-[:KNOWS]->(michael),
(will)-[:KNOWS]->(chris),
(chris)-[:KNOWS]->(karin)
有了 Neo4j 中的图,我们现在可以将其投影到图目录中,为算法执行做准备。我们使用 Cypher 投影来完成此操作,目标是 Person
节点和 KNOWS
关系。对于关系,我们必须使用 UNDIRECTED
方向。这是因为三角形计数算法仅针对无向图定义。
MATCH (source:Person)-[r:KNOWS]->(target:Person)
RETURN gds.graph.project(
'myGraph',
source,
target,
{},
{ undirectedRelationshipTypes: ['*'] }
)
在以下示例中,我们将演示在此图上使用三角形计数算法。
内存估算
首先,我们将使用 estimate
过程来估算运行算法的成本。这可以在任何执行模式下完成。在本例中,我们将使用 write
模式。估算算法有助于了解在图上运行算法对内存的影响。当您稍后实际以某种执行模式运行算法时,系统将执行估算。如果估算结果显示执行超出其内存限制的可能性非常高,则禁止执行。要了解更多信息,请参阅自动估算和执行阻止。
有关 estimate
的更多详细信息,请参阅内存估算。
CALL gds.triangleCount.write.estimate('myGraph', { writeProperty: 'triangleCount' })
YIELD nodeCount, relationshipCount, bytesMin, bytesMax, requiredMemory
nodeCount | relationshipCount | bytesMin | bytesMax | requiredMemory |
---|---|---|---|---|
6 |
16 |
152 |
152 |
"152 字节" |
请注意,关系计数为 16,尽管我们在原始 Cypher 语句中只投影了 8 个关系。这是因为我们使用了 UNDIRECTED
方向,这将把每个关系都投影到每个方向,从而有效地使关系数量翻倍。
流模式
在 stream
执行模式下,算法返回每个节点的三角形计数。这使我们能够直接检查结果或在 Cypher 中对其进行后处理,而不会产生任何副作用。例如,我们可以对结果进行排序,以找到三角形计数最高的节点。
有关 stream
模式的更多详细信息,请参阅流模式。
stream
模式下运行算法CALL gds.triangleCount.stream('myGraph')
YIELD nodeId, triangleCount
RETURN gds.util.asNode(nodeId).name AS name, triangleCount
ORDER BY triangleCount DESC, name ASC
name | triangleCount |
---|---|
"Michael" |
3 |
"Chris" |
2 |
"Will" |
2 |
"Karin" |
1 |
"Mark" |
1 |
"Alice" |
0 |
这里我们发现“Michael”节点拥有最多的三角形。这可以在示例图中验证。由于“Alice”节点只 KNOWS
另一个节点,它不能是任何三角形的一部分,因此算法报告计数为零。
统计模式
在 stats
执行模式下,算法返回一行,其中包含算法结果的摘要。摘要结果包含全局三角形计数,即整个图中的三角形总数。此执行模式没有副作用。通过检查 computeMillis
返回项,它可以用于评估算法性能。在以下示例中,我们将省略返回时间。该过程的完整签名可在语法部分找到。
有关 stats
模式的更多详细信息,请参阅统计模式。
stats
模式下运行算法CALL gds.triangleCount.stats('myGraph')
YIELD globalTriangleCount, nodeCount
globalTriangleCount | nodeCount |
---|---|
3 |
6 |
在这里我们可以看到,该图有六个节点,共有三个三角形。将其与流模式示例进行比较,我们可以看到“Michael”节点的三角形计数等于全局三角形计数。换句话说,该节点是图中所有三角形的一部分,因此在图中具有非常中心的位置。
变异模式
mutate
执行模式扩展了 stats
模式,具有一个重要的副作用:使用包含该节点三角形计数的新节点属性更新命名图。新属性的名称使用强制配置参数 mutateProperty
指定。结果是一个单一的摘要行,类似于 stats
,但带有一些额外的指标。当多个算法结合使用时,mutate
模式特别有用。例如,使用三角形计数来计算局部聚类系数。
有关 mutate
模式的更多详细信息,请参阅变异模式。
mutate
模式下运行算法CALL gds.triangleCount.mutate('myGraph', {
mutateProperty: 'triangles'
})
YIELD globalTriangleCount, nodeCount
globalTriangleCount | nodeCount |
---|---|
3 |
6 |
返回的结果与 stats
示例中的相同。此外,图“myGraph”现在有一个节点属性 triangles
,它存储了每个节点的三角形计数。要了解如何检查内存中图的新模式,请参阅列出图。
写入模式
write
执行模式扩展了 stats
模式,具有一个重要的副作用:将每个节点的三角形计数作为属性写入 Neo4j 数据库。新属性的名称使用强制配置参数 writeProperty
指定。结果是一个单一的摘要行,类似于 stats
,但带有一些额外的指标。write
模式支持将结果直接持久化到数据库。
有关 write
模式的更多详细信息,请参阅写入模式。
write
模式下运行算法CALL gds.triangleCount.write('myGraph', {
writeProperty: 'triangles'
})
YIELD globalTriangleCount, nodeCount
globalTriangleCount | nodeCount |
---|---|
3 |
6 |
返回的结果与 stats
示例中的相同。此外,六个节点中的每个节点现在在 Neo4j 数据库中都有一个新的属性 triangles
,其中包含该节点的三角形计数。
最大度数
三角形计数算法支持 maxDegree
配置参数,可用于在节点度数大于配置值时将其从处理中排除。当图中存在度数非常高的节点(所谓的超级节点)时,这对于加速计算非常有用。超级节点对三角形计数算法的性能有很大影响。要了解图的度数分布,请参阅列出图。
从计算中排除的节点将被分配三角形计数 -1
。
stream
模式下运行算法,并带上 maxDegree
参数CALL gds.triangleCount.stream('myGraph', {
maxDegree: 4
})
YIELD nodeId, triangleCount
RETURN gds.util.asNode(nodeId).name AS name, triangleCount
ORDER BY name ASC
name | triangleCount |
---|---|
"Alice" |
0 |
"Chris" |
0 |
"Karin" |
0 |
"Mark" |
0 |
"Michael" |
-1 |
"Will" |
0 |
在示例图上运行算法,并将 maxDegree
设置为 4,会排除“Michael”节点,因为它具有 5 度。
由于此节点是示例图中所有三角形的一部分,因此排除它将导致没有三角形。
三角形列表
此功能在 Aura 无服务器图分析中不可用。 |
也可以列出图中所有的三角形。为此,我们使用 gds.triangles
过程。
此功能处于 Alpha 阶段。有关功能层级的更多信息,请参阅API 层级。
CALL gds.triangles('myGraph')
YIELD nodeA, nodeB, nodeC
RETURN
gds.util.asNode(nodeA).name AS nodeA,
gds.util.asNode(nodeB).name AS nodeB,
gds.util.asNode(nodeC).name AS nodeC
ORDER BY nodeA, nodeB, nodeC ASC
nodeA | nodeB | nodeC |
---|---|---|
"Michael" |
"Chris" |
"Karin" |
"Michael" |
"Mark" |
"Will" |
"Michael" |
"Will" |
"Chris" |
我们可以看到图中有三个三角形:“Will、Michael 和 Chris”、“Will、Mark 和 Michael”以及“Michael、Karin 和 Chris”。节点“Alice”不属于任何三角形,因此未出现在三角形列表中。