拆分关系

此功能处于 alpha 级别。有关功能级别的更多信息,请参见 API 级别

介绍

拆分关系算法是一种实用程序算法,用于预处理图以进行模型训练。它将关系分成一个保留集和一个剩余集。保留集分为两类:正样本,即现有的关系,和负样本,即不存在的关系。类由关系上的 label 属性指示。这使得保留集可用于训练或测试机器学习模型。保留集和剩余关系都将添加到投影图中。

如果指定了配置选项 relationshipWeightProperty,则相应的关联属性将保留在剩余的关系集中。但是请注意,保留集只有 label 属性;由于它还包含负样本,因此无法在保留集上诱导关系权重。

语法

本节介绍在每种执行模式下执行拆分关系算法时使用的语法。我们正在描述命名图变体的语法。要详细了解一般语法变体,请参见 语法概述

每种模式的拆分关系语法
在命名图上以 mutate 模式运行拆分关系。
CALL gds.alpha.ml.splitRelationships.mutate(
  graphName: String,
  configuration: Map
)
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  mutateMillis: Integer,
  relationshipsWritten: Integer,
  configuration: Map
表 1. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

映射

{}

特定于算法的配置和/或图过滤。

表 2. 配置
名称 类型 默认值 可选 描述

sourceNodeLabels

字符串列表

['*']

过滤源节点至少具有一个 sourceNodeLabels 的关系。

targetNodeLabels

字符串列表

['*']

过滤目标节点至少具有一个 targetNodeLabels 的关系。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。

concurrency

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

可提供用于更轻松地跟踪算法进度的 ID。

holdoutFraction

浮点数

n/a

用作保留集的有效关系的比例。剩余的 1 - holdoutFraction 的有效关系将添加到剩余集中。

negativeSamplingRatio

浮点数

n/a

保留集中负样本与正样本的期望比率。

holdoutRelationshipType

字符串

n/a

用于保留集的关系类型。每个关系都有一个属性label,指示它是正样本还是负样本。

remainingRelationshipType

字符串

n/a

其中一个节点没有源或目标标签的关系将被忽略。所有无效关系将被添加到剩余集中。

nonNegativeRelationshipTypes

字符串列表

n/a

未用于负采样的其他关系类型。

relationshipWeightProperty

字符串

null

remainingRelationshipType继承的关系属性名称。

randomSeed

整数

n/a

随机选择关系的可选种子值。

表 3. 结果
名称 类型 描述

preProcessingMillis

整数

预处理数据的毫秒数。

computeMillis

整数

运行算法的毫秒数。

mutateMillis

整数

向投影图添加属性的毫秒数。

relationshipsWritten

整数

算法创建的关系数。

configuration

映射

用于运行算法的配置。

示例

以下所有示例都应在空数据库中运行。

这些示例使用Cypher 投影作为规范。原生投影将在未来版本中被弃用。

在本节中,我们将展示在具体图上运行拆分关系算法的示例。目的是说明结果看起来像什么,并提供如何在实际环境中使用算法的指南。我们将在一个小图上进行此操作,该图由少量节点以特定模式连接。示例图如下所示

Visualization of the example graph

考虑以下 Cypher 语句创建的图

CREATE
    (n0:Label),
    (n1:Label),
    (n2:Label),
    (n3:Label),
    (n4:Label),
    (n5:Label),

    (n0)-[:TYPE { prop: 0} ]->(n1),
    (n1)-[:TYPE { prop: 1} ]->(n2),
    (n2)-[:TYPE { prop: 4} ]->(n3),
    (n3)-[:TYPE { prop: 9} ]->(n4),
    (n4)-[:TYPE { prop: 16} ]->(n5)

给定上述图,我们想使用 20% 的关系作为保留集。保留集将被分成两个相同大小的类别:正类和负类。正关系将从现有关系中随机选择,并标记为属性label: 1。负关系将被随机生成,即它们不存在于输入图中,并标记为属性label: 0

MATCH (source:Label)-[r:TYPE]->(target:Label)
RETURN gds.graph.project(
  'graph',
  source,
  target,
  {
    sourceNodeLabels: ['Label'],
    targetNodeLabels: ['Label'],
    relationshipType: 'TYPE'
  },
  { undirectedRelationshipTypes: ['TYPE'] }
)

现在,我们可以通过指定适当的比率和输出关系类型来运行算法。我们使用随机种子值以产生确定性结果。

CALL gds.alpha.ml.splitRelationships.mutate('graph', {
    holdoutRelationshipType: 'TYPE_HOLDOUT',
    remainingRelationshipType: 'TYPE_REMAINING',
    holdoutFraction: 0.2,
    negativeSamplingRatio: 1.0,
    randomSeed: 1337
}) YIELD relationshipsWritten
表 4. 结果
relationshipsWritten

10

输入图包含 5 个关系。我们使用 20%(1 个关系)的关系来创建 'TYPE_HOLDOUT' 关系类型(保留集)。这会创建一个具有正标签的关系。由于negativeSamplingRatio,还会创建一个具有负标签的关系。最后,TYPE_REMAINING 关系类型由剩余的 80%(4 个关系)组成。这些被写入为方向UNDIRECTED,这算作写入 8 个关系。

当按TESTTRAIN 关系过滤时,变异后的图将如下所示。
CREATE
    (n0:Label),
    (n1:Label),
    (n2:Label),
    (n3:Label),
    (n4:Label),
    (n5:Label),

    (n2)-[:TYPE_HOLDOUT { label: 0 } ]->(n5), // negative, non-existing
    (n3)-[:TYPE_HOLDOUT { label: 1 } ]->(n2), // positive, existing

    (n0)<-[:TYPE_REMAINING { prop: 0} ]-(n1),
    (n1)<-[:TYPE_REMAINING { prop: 1} ]-(n2),
    (n3)<-[:TYPE_REMAINING { prop: 9} ]-(n4),
    (n4)<-[:TYPE_REMAINING { prop: 16} ]-(n5),
    (n0)-[:TYPE_REMAINING { prop: 0} ]->(n1),
    (n1)-[:TYPE_REMAINING { prop: 1} ]->(n2),
    (n3)-[:TYPE_REMAINING { prop: 9} ]->(n4),
    (n4)-[:TYPE_REMAINING { prop: 16} ]->(n5)