电导率度量

Aura 图分析无服务器不支持此功能。

词汇表

有向

有向特性。该算法在有向图上定义良好。

有向

有向特性。该算法忽略图的方向。

有向

有向特性。该算法不能在有向图上运行。

无向

无向特性。该算法在无向图上定义良好。

无向

无向特性。该算法忽略图的无向性。

异构节点

异构节点完全支持。该算法能够区分不同类型的节点。

异构节点

异构节点允许。该算法对所有选定的节点进行相似处理,无论其标签如何。

异构关系

异构关系完全支持。该算法能够区分不同类型的关系。

异构关系

异构关系允许。该算法对所有选定的关系进行相似处理,无论其类型如何。

加权关系

加权特性。该算法支持将关系属性用作权重,通过relationshipWeightProperty配置参数指定。

加权关系

加权特性。该算法将每个关系视为同等重要,并丢弃任何关系权重的值。

简介

电导率是一种度量指标,可用于评估社区检测的质量。社区 C 中节点的关系统计连到 C 内部或 C 外部的节点。电导率是连接到 C 外部的关系数与 C 中关系总数之间的比率。电导率越低,社区就越“紧密”。

Yang 和 Leskovec 在论文 "Defining and Evaluating Network Communities based on Ground-truth" 中指出,电导率是评估真实世界图中实际社区的非常好的度量指标。

该算法的运行时间与图中关系的数量呈线性关系。

语法

本节介绍在每种执行模式下执行电导率算法所使用的语法。我们将描述命名图语法的变体。要了解有关通用语法变体的更多信息,请参阅语法概述

示例 1. 每种模式的电导率语法
在流模式下对命名图运行电导率算法。
CALL gds.conductance.stream(
  graphName: String,
  configuration: Map
) YIELD
  community: Integer,
  conductance: Float
表 1. 参数
名称 类型 默认值 可选 描述

graphName

字符串

不适用

目录中存储的图的名称。

configuration

映射

{}

算法特定和/或图过滤的配置。

表 2. 配置
名称 类型 默认值 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。将包含具有任何给定标签的节点。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。将包含具有任何给定类型的关系。

concurrency

整数

4 [1]

用于运行算法的并发线程数。

jobId

字符串

内部生成

一个 ID,可以提供此 ID 以便更轻松地跟踪算法的进度。

logProgress

布尔值

true

如果禁用,将不会记录进度百分比。

relationshipWeightProperty

字符串

null

用作权重的关系属性名称。如果未指定,则算法在非加权模式下运行。

communityProperty

字符串

不适用

包含每个节点的社区 ID 的节点属性,其值为整数。请注意,仅非负社区 ID 被视为有效,并将计算其电导率。

1. 在 GDS 会话中,默认值为可用处理器数量

表 3. 结果
名称 类型 描述

community

整数

社区 ID。

conductance

浮点数

社区的电导率。

只有非负社区 ID 才可用于识别社区。具有负社区 ID 的节点仅在其连接到有效社区的节点的范围内参与计算,从而有助于这些有效社区的对外关系计数。

示例

以下所有示例都应在空数据库中运行。

示例通常使用Cypher 投影。原生投影将在未来版本中弃用。

在本节中,我们将展示在具体图上运行电导率算法的示例。目的是说明结果如何以及提供如何在实际环境中利用该算法的指南。我们将在一个由少数以特定模式连接的节点组成的小型社交网络图上执行此操作。示例图如下所示

Visualization of the example graph
以下 Cypher 语句将在 Neo4j 数据库中创建示例图
CREATE
  (nAlice:User {name: 'Alice', seed: 42}),
  (nBridget:User {name: 'Bridget', seed: 42}),
  (nCharles:User {name: 'Charles', seed: 42}),
  (nDoug:User {name: 'Doug'}),
  (nMark:User {name: 'Mark'}),
  (nMichael:User {name: 'Michael'}),

  (nAlice)-[:LINK {weight: 1}]->(nBridget),
  (nAlice)-[:LINK {weight: 1}]->(nCharles),
  (nCharles)-[:LINK {weight: 1}]->(nBridget),

  (nAlice)-[:LINK {weight: 5}]->(nDoug),

  (nMark)-[:LINK {weight: 1}]->(nDoug),
  (nMark)-[:LINK {weight: 1}]->(nMichael),
  (nMichael)-[:LINK {weight: 1}]->(nMark);

此图有两个紧密连接的用户集群。这些集群之间只有一条边。连接每个组件中节点的关系具有一个 weight 属性,该属性决定了关系的强度。

我们现在可以投影图并将其存储在图目录中。我们以 UNDIRECTED 方向加载 LINK 关系,因为这与 Louvain 算法最匹配,我们将使用该算法创建社区,然后使用电导率评估这些社区。

以下语句将投影图并将其存储在图目录中。
MATCH (source:User)
OPTIONAL MATCH (source)-[r:LINK]->(target:User)
RETURN gds.graph.project(
  'myGraph',
  source,
  target,
  {
    sourceNodeProperties: source { .seed },
    targetNodeProperties: target { .seed },
    relationshipProperties: r { .weight }
  },
  { undirectedRelationshipTypes: ['*'] }
)

我们现在运行Louvain 算法来创建节点到社区的划分,然后我们可以对其进行评估。

以下将运行 Louvain 算法并将结果存储在 myGraph
CALL gds.louvain.mutate('myGraph', { mutateProperty: 'community', relationshipWeightProperty: 'weight' })
YIELD communityCount
表 4. 结果
communityCount

3

现在,我们的内存图 myGraph 已填充了键为 community 的节点属性,我们可以将其设置为使用电导率进行评估的输入。节点现在按以下方式分配到社区

表 5. 社区分配
姓名 community

"Alice"

1

"Bridget"

3

"Charles"

3

"Doug"

1

"Mark"

5

"Michael"

5

有关如何获取此类分配表的更多信息,请参阅流式传输节点属性过程。

有关 Louvain 的更多信息,请参阅其算法页面

既然我们已经进行了社区检测,我们就可以评估它在电导率指标下的优劣。请注意,在这种情况下,我们使用关系按关系属性加权的功能。

电导率流过程返回每个社区的电导率。这使我们能够直接检查结果或在 Cypher 中对其进行后处理,而不会产生任何副作用。

有关流模式的更多详细信息,请参阅

以下将以 stream 模式运行电导率算法
CALL gds.conductance.stream('myGraph', { communityProperty: 'community', relationshipWeightProperty: 'weight' })
YIELD community, conductance
表 6. 结果
community conductance

1

0.23076923076923078

3

0.5

5

0.2

我们可以看到,加权图中电导率最低的社区是社区 5。这意味着 5 是最“紧密”的社区,因为其大部分关系权重都在社区内部。

© . All rights reserved.