特征向量中心性

词汇表

有向

有向特性。该算法在有向图上定义良好。

有向

有向特性。该算法忽略图的方向。

有向

有向特性。该算法不能在有向图上运行。

无向

无向特性。该算法在无向图上定义良好。

无向

无向特性。该算法忽略图的无向性。

异构节点

异构节点 完全支持。该算法能够区分不同类型的节点。

异构节点

异构节点 允许。该算法以相同的方式对待所有选定的节点,而不管其标签如何。

异构关系

异构关系 完全支持。该算法能够区分不同类型的关系。

异构关系

异构关系 允许。该算法以相同的方式对待所有选定的关系,而不管其类型如何。

加权关系

加权特性。该算法支持使用关系属性作为权重,通过 relationshipWeightProperty 配置参数指定。

加权关系

加权特性。该算法将每个关系视为同等重要,丢弃任何关系权重的值。

简介

特征向量中心性是一种算法,用于衡量节点的**传递**影响。来自得分高的节点的关系对节点得分的贡献大于来自得分低的节点的连接。较高的特征向量得分意味着一个节点连接到许多本身得分较高的节点。

该算法计算与最大绝对特征值相关的特征向量。为了计算该特征值,该算法应用了幂迭代方法。在每次迭代中,每个节点的中心性得分都来自其传入邻居的得分。在幂迭代方法中,特征向量在每次迭代后进行 L2 归一化,从而默认产生归一化结果。

PageRank算法是PageRank算法的一个变体,它增加了跳转概率。

注意事项

使用特征向量中心性算法时,需要注意以下几点。

  • 没有入度关系的节点的中心性得分将收敛到0

  • 由于缺少度归一化,高度节点对其邻居得分的的影响非常大。

语法

本节介绍了在每种执行模式下执行特征向量中心性算法所使用的语法。我们在此描述的是命名图语法变体。要了解有关一般语法变体的更多信息,请参阅语法概述

每种模式下的特征向量中心性语法
在命名图上以流模式运行特征向量中心性。
CALL gds.eigenvector.stream(
  graphName: String,
  configuration: Map
)
YIELD
  nodeId: Integer,
  score: Float
表1. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

映射

{}

算法特定和/或图过滤的配置。

表2. 配置
名称 类型 默认值 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。将包含具有任何给定标签的节点。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。将包含具有任何给定类型的关系。

concurrency

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

可提供的ID,以便更轻松地跟踪算法的进度。

logProgress

布尔值

true

如果禁用,则不会记录进度百分比。

maxIterations

整数

20

要运行的特征向量中心性的最大迭代次数。

tolerance

浮点数

0.0000001

迭代之间得分的最小变化。如果所有得分的变化都小于容差值,则结果被认为是稳定的,算法返回。

relationshipWeightProperty

字符串

null

用作权重的关系属性的名称。如果未指定,则算法以未加权的方式运行。

sourceNodes

节点或数字列表

[]

用于计算个性化Page Rank的节点或节点ID。

scaler

字符串或映射

应用于最终得分的缩放器的名称。支持的值为NoneMinMaxMaxMeanLogStdScore。要应用缩放器特定的配置,请使用映射语法:{scaler: 'name', …​}

表3. 结果
名称 类型 描述

nodeId

整数

节点ID。

score

浮点数

特征向量得分。

在命名图上以统计模式运行特征向量中心性。
CALL gds.eigenvector.stats(
  graphName: String,
  configuration: Map
)
YIELD
  ranIterations: Integer,
  didConverge: Boolean,
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  centralityDistribution: Map,
  configuration: Map
表4. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

映射

{}

算法特定和/或图过滤的配置。

表5. 配置
名称 类型 默认值 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。将包含具有任何给定标签的节点。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。将包含具有任何给定类型的关系。

concurrency

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

可提供的ID,以便更轻松地跟踪算法的进度。

logProgress

布尔值

true

如果禁用,则不会记录进度百分比。

maxIterations

整数

20

要运行的特征向量中心性的最大迭代次数。

tolerance

浮点数

0.0000001

迭代之间得分的最小变化。如果所有得分的变化都小于容差值,则结果被认为是稳定的,算法返回。

relationshipWeightProperty

字符串

null

用作权重的关系属性的名称。如果未指定,则算法以未加权的方式运行。

sourceNodes

节点或数字列表

[]

用于计算个性化Page Rank的节点或节点ID。

scaler

字符串或映射

应用于最终得分的缩放器的名称。支持的值为NoneMinMaxMaxMeanLogStdScore。要应用缩放器特定的配置,请使用映射语法:{scaler: 'name', …​}

表6. 结果
名称 类型 描述

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

preProcessingMillis

整数

预处理图所花费的毫秒数。

computeMillis

整数

运行算法所花费的毫秒数。

postProcessingMillis

整数

计算centralityDistribution所花费的毫秒数。

centralityDistribution

映射

包含最小值、最大值、平均值以及中心值第50、75、90、95、99和999百分位数的映射。

configuration

映射

用于运行算法的配置。

在命名图上以变异模式运行特征向量中心性。
CALL gds.eigenvector.mutate(
  graphName: String,
  configuration: Map
)
YIELD
  nodePropertiesWritten: Integer,
  ranIterations: Integer,
  didConverge: Boolean,
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  mutateMillis: Integer,
  centralityDistribution: Map,
  configuration: Map
表7. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

映射

{}

算法特定和/或图过滤的配置。

表8. 配置
名称 类型 默认值 可选 描述

mutateProperty

字符串

n/a

将得分写入GDS图中的节点属性。

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。

concurrency

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

可提供的ID,以便更轻松地跟踪算法的进度。

maxIterations

整数

20

要运行的特征向量中心性的最大迭代次数。

tolerance

浮点数

0.0000001

迭代之间得分的最小变化。如果所有得分的变化都小于容差值,则结果被认为是稳定的,算法返回。

relationshipWeightProperty

字符串

null

用作权重的关系属性的名称。如果未指定,则算法以未加权的方式运行。

sourceNodes

节点或数字列表

[]

用于计算个性化Page Rank的节点或节点ID。

scaler

字符串或映射

应用于最终得分的缩放器的名称。支持的值为NoneMinMaxMaxMeanLogStdScore。要应用缩放器特定的配置,请使用映射语法:{scaler: 'name', …​}

表9. 结果
名称 类型 描述

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

preProcessingMillis

整数

预处理图所花费的毫秒数。

computeMillis

整数

运行算法所花费的毫秒数。

postProcessingMillis

整数

计算centralityDistribution所花费的毫秒数。

mutateMillis

整数

向内存中图添加属性所花费的毫秒数。

nodePropertiesWritten

整数

写入内存中图的属性数。

centralityDistribution

映射

包含最小值、最大值、平均值以及中心值第50、75、90、95、99和999百分位数的映射。

configuration

映射

用于运行算法的配置。

在命名图上以写入模式运行特征向量中心性。
CALL gds.eigenvector.write(
  graphName: String,
  configuration: Map
)
YIELD
  nodePropertiesWritten: Integer,
  ranIterations: Integer,
  didConverge: Boolean,
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  writeMillis: Integer,
  centralityDistribution: Map,
  configuration: Map
表10. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

映射

{}

算法特定和/或图过滤的配置。

表11. 配置
名称 类型 默认值 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。将包含具有任何给定标签的节点。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。将包含具有任何给定类型的关系。

concurrency

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

可提供的ID,以便更轻松地跟踪算法的进度。

logProgress

布尔值

true

如果禁用,则不会记录进度百分比。

writeConcurrency

整数

'concurrency'的值

用于将结果写入Neo4j的并发线程数。

writeProperty

字符串

n/a

将得分写入Neo4j数据库中的节点属性。

maxIterations

整数

20

要运行的特征向量中心性的最大迭代次数。

tolerance

浮点数

0.0000001

迭代之间得分的最小变化。如果所有得分的变化都小于容差值,则结果被认为是稳定的,算法返回。

relationshipWeightProperty

字符串

null

用作权重的关系属性的名称。如果未指定,则算法以未加权的方式运行。

sourceNodes

节点或数字列表

[]

用于计算个性化Page Rank的节点或节点ID。

scaler

字符串或映射

应用于最终得分的缩放器的名称。支持的值为NoneMinMaxMaxMeanLogStdScore。要应用缩放器特定的配置,请使用映射语法:{scaler: 'name', …​}

表12. 结果
名称 类型 描述

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

preProcessingMillis

整数

预处理图所花费的毫秒数。

computeMillis

整数

运行算法所花费的毫秒数。

postProcessingMillis

整数

计算centralityDistribution所花费的毫秒数。

writeMillis

整数

写回结果数据所花费的毫秒数。

nodePropertiesWritten

整数

写入Neo4j的属性数。

centralityDistribution

映射

包含最小值、最大值、平均值以及中心值第50、75、90、95、99和999百分位数的映射。

configuration

映射

用于运行算法的配置。

示例

以下所有示例都应在空数据库中运行。

这些示例使用Cypher投影作为规范。原生投影将在将来的版本中弃用。

在本节中,我们将展示在具体图上运行特征向量中心性算法的示例。目的是说明结果是什么样子,并提供有关如何在实际环境中使用该算法的指南。我们将在少量节点以特定模式连接的小型网页网络图上进行此操作。示例图如下所示

Visualization of the example graph
以下Cypher语句将在Neo4j数据库中创建示例图
CREATE
  (home:Page {name:'Home'}),
  (about:Page {name:'About'}),
  (product:Page {name:'Product'}),
  (links:Page {name:'Links'}),
  (a:Page {name:'Site A'}),
  (b:Page {name:'Site B'}),
  (c:Page {name:'Site C'}),
  (d:Page {name:'Site D'}),

  (home)-[:LINKS {weight: 0.2}]->(about),
  (home)-[:LINKS {weight: 0.2}]->(links),
  (home)-[:LINKS {weight: 0.6}]->(product),
  (about)-[:LINKS {weight: 1.0}]->(home),
  (product)-[:LINKS {weight: 1.0}]->(home),
  (a)-[:LINKS {weight: 1.0}]->(home),
  (b)-[:LINKS {weight: 1.0}]->(home),
  (c)-[:LINKS {weight: 1.0}]->(home),
  (d)-[:LINKS {weight: 1.0}]->(home),
  (links)-[:LINKS {weight: 0.8}]->(home),
  (links)-[:LINKS {weight: 0.05}]->(a),
  (links)-[:LINKS {weight: 0.05}]->(b),
  (links)-[:LINKS {weight: 0.05}]->(c),
  (links)-[:LINKS {weight: 0.05}]->(d);

此图表示八个页面,彼此链接。每个关系都具有一个名为weight的属性,该属性描述了关系的重要性。

以下语句将使用Cypher投影投影图,并将其存储在图目录中,名称为'myGraph'。
MATCH (source:Page)-[r:LINKS]->(target:Page)
RETURN gds.graph.project(
  'myGraph',
  source,
  target,
  { relationshipProperties: r { .weight } }
)

内存估算

首先,我们将使用estimate过程估算运行算法的成本。这可以使用任何执行模式来完成。在本例中,我们将使用write模式。估算算法有助于了解在图上运行算法会产生的内存影响。当您稍后在其中一种执行模式下实际运行算法时,系统将执行估算。如果估算显示执行很有可能超过其内存限制,则会禁止执行。要了解更多信息,请参阅自动估算和执行阻止

有关estimate的更多详细信息,请参阅内存估算

以下将估算运行算法所需的内存。
CALL gds.eigenvector.write.estimate('myGraph', {
  writeProperty: 'centrality',
  maxIterations: 20
})
YIELD nodeCount, relationshipCount, bytesMin, bytesMax, requiredMemory
表13. 结果
nodeCount relationshipCount bytesMin bytesMax requiredMemory

8

14

696

696

"696 字节"

stream执行模式下,算法返回每个节点的得分。这使我们能够直接检查结果或在Cypher中对其进行后处理,而不会产生任何副作用。例如,我们可以对结果进行排序以查找特征向量得分最高的节点。

有关stream模式的更多详细信息,请参阅

以下将在stream模式下运行算法。
CALL gds.eigenvector.stream('myGraph')
YIELD nodeId, score
RETURN gds.util.asNode(nodeId).name AS name, score
ORDER BY score DESC, name ASC
表14. 结果
name score

"首页"

0.7465574981728249

"关于"

0.33997520529777137

"链接"

0.33997520529777137

"产品"

0.33997520529777137

"站点A"

0.15484062876886298

"站点B"

0.15484062876886298

"站点C"

0.15484062876886298

"站点D"

0.15484062876886298

上述查询以stream模式运行算法作为unweighted。下面,可以找到加权图的示例。

统计

stats执行模式下,算法返回一行,其中包含算法结果的摘要。例如,特征向量统计返回中心性直方图,可用于监控所有计算节点的中心性得分的分布。此执行模式没有任何副作用。通过检查computeMillis返回值,它可以用于评估算法性能。在下面的示例中,我们将省略返回时间。可以在语法部分中找到过程的完整签名。

有关stats模式的更多详细信息,请参阅统计

以下将运行算法并返回有关中心性得分的统计信息。
CALL gds.eigenvector.stats('myGraph', {
  maxIterations: 20
})
YIELD centralityDistribution
RETURN centralityDistribution.max AS max
表15. 结果
max

0.7465591431

变异

mutate执行模式扩展了stats模式,并具有一个重要的副作用:使用包含该节点得分的新的节点属性更新命名图。新属性的名称使用必填配置参数mutateProperty指定。结果是类似于stats的单个摘要行,但包含一些其他指标。当多个算法结合使用时,mutate模式特别有用。

有关mutate模式的更多详细信息,请参阅变异

以下将在mutate模式下运行算法。
CALL gds.eigenvector.mutate('myGraph', {
  maxIterations: 20,
  mutateProperty: 'centrality'
})
YIELD nodePropertiesWritten, ranIterations
表16. 结果
nodePropertiesWritten ranIterations

8

20

写入

write执行模式扩展了stats模式,并具有一个重要的副作用:将每个节点的得分作为属性写入Neo4j数据库。新属性的名称使用必填配置参数writeProperty指定。结果是类似于stats的单个摘要行,但包含一些其他指标。write模式能够将结果直接持久化到数据库中。

有关write模式的更多详细信息,请参阅写入

以下将在write模式下运行算法。
CALL gds.eigenvector.write('myGraph', {
  maxIterations: 20,
  writeProperty: 'centrality'
})
YIELD nodePropertiesWritten, ranIterations
表17. 结果
nodePropertiesWritten ranIterations

8

20

加权

默认情况下,算法认为图的关系是未加权的。要更改此行为,我们可以使用relationshipWeightProperty配置参数。如果设置了该参数,则关联的属性值将用作关系权重。在weighted情况下,发送到其邻居的节点的先前得分将乘以归一化的关系权重。请注意,在计算过程中会忽略负关系权重。

在以下示例中,我们使用输入图的weight属性作为关系权重属性。

以下将在stream模式下使用关系权重运行算法。
CALL gds.eigenvector.stream('myGraph', {
  maxIterations: 20,
  relationshipWeightProperty: 'weight'
})
YIELD nodeId, score
RETURN gds.util.asNode(nodeId).name AS name, score
ORDER BY score DESC, name ASC
表18. 结果
name score

"首页"

0.8328163407319487

"产品"

0.5004775834976313

"关于"

0.1668258611658771

"链接"

0.1668258611658771

"站点A"

0.008327591469710233

"站点B"

0.008327591469710233

"站点C"

0.008327591469710233

"站点D"

0.008327591469710233

"首页"节点的得分仍然最高。相比之下,"产品"现在排名第二,而不是第四。

我们使用stream模式来说明如何以weighted方式运行算法,但是所有算法模式都支持relationshipWeightProperty配置参数。

容差

tolerance配置参数表示迭代之间得分的最小变化。如果所有得分的变化都小于配置的容差,则迭代将中止并被认为是收敛的。请注意,设置更高的容差会导致更早收敛,但也导致中心性得分不太准确。

以下将在stream模式下使用高tolerance值运行算法。
CALL gds.eigenvector.stream('myGraph', {
  maxIterations: 20,
  tolerance: 0.1
})
YIELD nodeId, score
RETURN gds.util.asNode(nodeId).name AS name, score
ORDER BY score DESC, name ASC
表19. 结果
name score

"首页"

0.7108273818583551

"关于"

0.3719400001993262

"链接"

0.3719400001993262

"产品"

0.3719400001993262

"站点A"

0.14116155811301126

"站点B"

0.14116155811301126

"站点C"

0.14116155811301126

"站点D"

0.14116155811301126

我们使用tolerance: 0.1,这导致与流示例相比略有不同的结果。但是,计算在三次迭代后收敛,我们已经可以在结果得分中观察到趋势。

个性化特征向量中心性

个性化特征向量中心性是特征向量中心性的一个变体,它偏向于一组sourceNodes。默认情况下,幂迭代从所有节点的相同值开始:1 / |V|。对于给定的源节点集S,每个源节点的初始值设置为1 / |S|,而所有其余节点的初始值设置为0

以下示例展示了如何以'站点A'为中心运行特征向量中心性。

以下将运行算法并流式传输结果
MATCH (siteA:Page {name: 'Site A'}), (siteB:Page {name: 'Site B'})
CALL gds.eigenvector.stream('myGraph', {
  maxIterations: 20,
  sourceNodes: [siteA, siteB]
})
YIELD nodeId, score
RETURN gds.util.asNode(nodeId).name AS name, score
ORDER BY score DESC, name ASC
表 20. 结果
name score

"首页"

0.7465645391567868

"关于"

0.33997203172449453

"链接"

0.33997203172449453

"产品"

0.33997203172449453

"站点A"

0.15483736775159632

"站点B"

0.15483736775159632

"站点C"

0.15483736775159632

"站点D"

0.15483736775159632

缩放中心性得分

在内部,中心性得分在每次迭代后使用 L2 归一化进行缩放。因此,最终值已归一化。此行为无法更改,因为它属于幂迭代方法的一部分。

但是,要将最终得分作为算法执行的一部分进行归一化,可以使用scaler配置参数。可以在scaleProperties过程的文档中找到所有可用缩放器的描述。

以下将在stream模式下运行算法并返回归一化结果
CALL gds.eigenvector.stream('myGraph', {
  scaler: "MINMAX"
})
YIELD nodeId, score
RETURN gds.util.asNode(nodeId).name AS name, score
ORDER BY score DESC, name ASC
表 21. 结果
name score

"首页"

1.0

"关于"

0.312876962110942

"链接"

0.312876962110942

"产品"

0.312876962110942

"站点A"

0.0

"站点B"

0.0

"站点C"

0.0

"站点D"

0.0

将结果与流示例进行比较,我们可以看到得分的相对顺序相同。