HITS

此功能处于 alpha 级别。有关功能级别的更多信息,请参阅 API 级别

词汇表

定向

定向特征。该算法在有向图上定义良好。

定向

定向特征。该算法忽略图的方向。

定向

定向特征。该算法不在有向图上运行。

无向

无向特征。该算法在无向图上定义良好。

无向

无向特征。该算法忽略图的无向性。

异构节点

异构节点 完全支持。该算法能够区分不同类型的节点。

异构节点

异构节点 允许。该算法将所有选定节点视为相同,而不管其标签如何。

异构关系

异构关系 完全支持。该算法能够区分不同类型的关系。

异构关系

异构关系 允许。该算法将所有选定关系视为相同,而不管其类型如何。

加权关系

加权特征。该算法支持关系属性用作权重,通过 relationshipWeightProperty 配置参数指定。

加权关系

加权特征。该算法将每个关系视为同等重要,忽略任何关系权重的值。

简介

超链接诱导主题搜索 (HITS) 是一种链接分析算法,它根据两个分数对节点进行评分,即 hub 分数和 authority 分数。authority 分数估计节点在网络中的重要性。hub 分数估计其与其他节点的关系的价值。GDS 实现基于 Jon M. Kleinberg 的 超链接环境中的权威来源 出版物。

HITS 算法需要每种关系类型的逆索引。

语法

本节介绍了在每种执行模式下执行 HITS 算法时使用的语法。我们正在描述命名图版本的语法。要了解有关一般语法变体的更多信息,请参阅 语法概述

每种模式的 HITS 语法
在命名图上以流模式运行 HITS。
CALL gds.hits.stream(
  graphName: String,
  configuration: Map
)
YIELD
  nodeId: Integer,
  values: Map
表 1. 参数
名称 类型 默认值 可选 说明

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

地图

{}

针对算法特定和/或图过滤的配置。

表 2. 配置
名称 类型 默认值 可选 说明

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。具有任何给定标签的节点将被包含。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。包含具有任何给定类型的关系。

并发

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

一个可用于更轻松地跟踪算法进度的 ID。

logProgress

布尔值

如果禁用,则不会记录进度百分比。

hitsIterations

整数

20

要运行的命中迭代次数。Pregel 迭代次数将等于 `hitsIterations * 4`

authProperty

字符串

"auth"

使用 `STREAM`、`MUTATE` 或 `WRITE` 模式时用于身份验证属性的名称。

hubProperty

字符串

"hub"

使用 `STREAM`、`MUTATE` 或 `WRITE` 模式时用于中心属性的名称。

分区

字符串

"AUTO"

用于将工作划分为线程的分区方案。可用选项为 `AUTO`、`RANGE`、`DEGREE`。

表 3. 结果
名称 类型 说明

nodeId

整数

节点 ID。

地图

包含 `auth` 和 `hub` 键的映射。

在统计模式下在命名图上运行 HITS。
CALL gds.hits.stats(
  graphName: String,
  configuration: Map
)
YIELD
  ranIterations: Integer,
  didConverge: Boolean,
  preProcessingMillis: Integer,
  computeMillis: Integer,
  configuration: Map
表 4. 参数
名称 类型 默认值 可选 说明

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

地图

{}

针对算法特定和/或图过滤的配置。

表 5. 配置
名称 类型 默认值 可选 说明

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。具有任何给定标签的节点将被包含。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。包含具有任何给定类型的关系。

并发

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

一个可用于更轻松地跟踪算法进度的 ID。

logProgress

布尔值

如果禁用,则不会记录进度百分比。

hitsIterations

整数

20

要运行的命中迭代次数。Pregel 迭代次数将等于 `hitsIterations * 4`

authProperty

字符串

"auth"

使用 `STREAM`、`MUTATE` 或 `WRITE` 模式时用于身份验证属性的名称。

hubProperty

字符串

"hub"

使用 `STREAM`、`MUTATE` 或 `WRITE` 模式时用于中心属性的名称。

分区

字符串

"AUTO"

用于将工作划分为线程的分区方案。可用选项为 `AUTO`、`RANGE`、`DEGREE`。

表 6. 结果
名称 类型 说明

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

preProcessingMillis

整数

预处理图的毫秒数。

computeMillis

整数

运行算法的毫秒数。

configuration

地图

用于运行算法的配置。

在变异模式下在命名图上运行 HITS。
CALL gds.hits.mutate(
  graphName: String,
  configuration: Map
)
YIELD
  ranIterations: Integer,
  didConverge: Boolean,
  preProcessingMillis: Integer,
  computeMillis: Integer,
  mutateMillis: Integer,
  nodePropertiesWritten: Integer,
  configuration: Map
表 7. 参数
名称 类型 默认值 可选 说明

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

地图

{}

针对算法特定和/或图过滤的配置。

表 8. 配置
名称 类型 默认值 可选 说明

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。

并发

整数

4

用于运行算法的并发线程数。

mutateProperty

字符串

""

PregelSchema 中所有公共属性使用的前缀。

jobId

字符串

内部生成

一个可用于更轻松地跟踪算法进度的 ID。

hitsIterations

整数

20

要运行的命中迭代次数。Pregel 迭代次数将等于 `hitsIterations * 4`

authProperty

字符串

"auth"

使用 `STREAM`、`MUTATE` 或 `WRITE` 模式时用于身份验证属性的名称。

hubProperty

字符串

"hub"

使用 `STREAM`、`MUTATE` 或 `WRITE` 模式时用于中心属性的名称。

分区

字符串

"AUTO"

用于将工作划分为线程的分区方案。可用选项为 `AUTO`、`RANGE`、`DEGREE`。

表 9. 结果
名称 类型 说明

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

preProcessingMillis

整数

预处理图的毫秒数。

computeMillis

整数

运行算法的毫秒数。

mutateMillis

整数

将属性添加到投影图的毫秒数。

nodePropertiesWritten

整数

写入 Neo4j 的属性数量。

configuration

地图

用于运行算法的配置。

在写入模式下在命名图上运行 HITS。
CALL gds.hits.write(
  graphName: String,
  configuration: Map
)
YIELD
  ranIterations: Integer,
  didConverge: Boolean,
  preProcessingMillis: Integer,
  computeMillis: Integer,
  writeMillis: Integer,
  nodePropertiesWritten: Integer,
  configuration: Map
表 10. 参数
名称 类型 默认值 可选 说明

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

地图

{}

针对算法特定和/或图过滤的配置。

表 11. 配置
名称 类型 默认值 可选 说明

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。具有任何给定标签的节点将被包含。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。包含具有任何给定类型的关系。

并发

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

一个可用于更轻松地跟踪算法进度的 ID。

logProgress

布尔值

如果禁用,则不会记录进度百分比。

writeConcurrency

整数

'concurrency' 的值

用于将结果写入 Neo4j 的并发线程数。

writeProperty

字符串

""

PregelSchema 中所有公共属性使用的前缀。

hitsIterations

整数

20

要运行的命中迭代次数。Pregel 迭代次数将等于 `hitsIterations * 4`

authProperty

字符串

"auth"

使用 `STREAM`、`MUTATE` 或 `WRITE` 模式时用于身份验证属性的名称。

hubProperty

字符串

"hub"

使用 `STREAM`、`MUTATE` 或 `WRITE` 模式时用于中心属性的名称。

分区

字符串

"AUTO"

用于将工作划分为线程的分区方案。可用选项为 `AUTO`、`RANGE`、`DEGREE`。

表 12. 结果
名称 类型 说明

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

preProcessingMillis

整数

预处理图的毫秒数。

computeMillis

整数

运行算法的毫秒数。

writeMillis

整数

写入结果数据的毫秒数。

nodePropertiesWritten

整数

写入 Neo4j 的属性数量。

configuration

地图

用于运行算法的配置。

示例

以下所有示例都应在空数据库中运行。

这些示例使用 Cypher 投影 作为规范。原生投影将在未来版本中被弃用。

在本节中,我们将展示在具体图上运行 HITS 算法的示例。目的是说明结果的外观并提供如何在实际环境中使用算法的指南。我们将对少量节点以特定模式连接的小型社交网络图进行此操作。示例图如下所示

Visualization of the example graph
以下 Cypher 语句将在 Neo4j 数据库中创建示例图
CREATE
  (a:Website {name: 'A'}),
  (b:Website {name: 'B'}),
  (c:Website {name: 'C'}),
  (d:Website {name: 'D'}),
  (e:Website {name: 'E'}),
  (f:Website {name: 'F'}),
  (g:Website {name: 'G'}),
  (h:Website {name: 'H'}),
  (i:Website {name: 'I'}),

  (a)-[:LINK]->(b),
  (a)-[:LINK]->(c),
  (a)-[:LINK]->(d),
  (b)-[:LINK]->(c),
  (b)-[:LINK]->(d),
  (c)-[:LINK]->(d),

  (e)-[:LINK]->(b),
  (e)-[:LINK]->(d),
  (e)-[:LINK]->(f),
  (e)-[:LINK]->(h),

  (f)-[:LINK]->(g),
  (f)-[:LINK]->(i),
  (f)-[:LINK]->(h),
  (g)-[:LINK]->(h),
  (g)-[:LINK]->(i),
  (h)-[:LINK]->(i);

在示例中,我们将使用 HITS 算法来计算权威和中心分数。

以下语句将投影图形并将其存储在图形目录中。
MATCH (source:Website)-[r:LINK]->(target:Website)
RETURN gds.graph.project(
  'myGraph',
  source,
  target,
  {},
  { inverseIndexedRelationshipTypes: ['*'] }
)

在以下示例中,我们将演示在该图上使用 HITS 算法。

在 `stream` 执行模式下,算法返回每个节点的权威和中心分数。这使我们能够直接检查结果或在 Cypher 中对其进行后处理,而不会产生任何副作用。

有关 `stream` 模式的更多详细信息,请参阅 Stream

以下将运行算法并流式传输结果
CALL gds.hits.stream('myGraph', {hitsIterations: 20})
YIELD nodeId, values
RETURN gds.util.asNode(nodeId).name AS Name, values.auth AS auth, values.hub as hub
ORDER BY Name ASC
表 13. 结果
名称 auth hub

"A"

0.0

0.5147630377521207

"B"

0.42644630743935796

0.3573686670593437

"C"

0.3218729455718005

0.23857061715828276

"D"

0.6463862608483191

0.0

"E"

0.0

0.640681017095129

"F"

0.23646490227616518

0.2763222153580397

"G"

0.10200264424057169

0.23867470447760597

"H"

0.426571816146601

0.0812340105698113

"I"

0.22009646020698218

0.0