过滤后的 K 最近邻

词汇表

有向

有向特征。该算法在有向图上定义良好。

有向

有向特征。该算法忽略图的方向。

有向

有向特征。该算法不能在有向图上运行。

无向

无向特征。该算法在无向图上定义良好。

无向

无向特征。该算法忽略图的无向性。

异构节点

异构节点 完全支持。该算法能够区分不同类型的节点。

异构节点

异构节点 允许。该算法将所有选定的节点视为相同,而不管其标签如何。

异构关系

异构关系 完全支持。该算法能够区分不同类型的关系。

异构关系

异构关系 允许。该算法将所有选定的关系视为相同,而不管其类型如何。

加权关系

加权特征。该算法支持使用关系属性作为权重,通过 relationshipWeightProperty 配置参数指定。

加权关系

加权特征。该算法将每个关系视为同等重要,丢弃任何关系权重的值。

简介

过滤后的 K 最近邻算法扩展了我们流行的 K 最近邻 算法,可以通过源节点、目标节点或两者进行过滤。

过滤类型

我们处在一个由源节点、目标节点以及它们之间具有相似度得分距离的关系组成的世界中。

就像 K 最近邻算法一样,带过滤的输出是节点与其 k 个最近邻之间的新关系。相似度得分通过关系属性表示。

除了提供过滤后的 K 最近邻算法,您还可以控制关系两端节点,从而避免您自己过滤大型结果集,并更好地控制输出量。

源节点过滤

在某些用例中,您可能希望限制可以充当源节点的节点集;或可以充当源节点的节点类型。这就是源节点过滤。您希望获得从这些特定节点或此特定类型节点发出的得分最高的关联。

源节点过滤器可以采用以下两种形式之一

  • 一组节点

  • 一个标签

  • 一组节点一个标签

目标节点过滤

与源节点一样,有时您可能希望限制可以充当目标节点的节点集或节点类型,即目标节点过滤。给定源节点的得分最高的关联,其中目标节点来自某个集合,或属于某个类型。

与源节点过滤器一样,目标节点过滤器也可以采用以下两种形式之一

  • 一组节点

  • 一个标签

  • 一组节点一个标签

目标节点过滤的种子节点

目标节点过滤的另一个用例是,您绝对希望生成k个结果。您希望使用关联填充一个固定大小的存储桶,您希望 K 最近邻算法能够找到足够多的高分关联,但作为保险策略,我们可以使用任意关联为您的结果集播种,以“保证”一个完整的包含k个结果的存储桶。

就像 K 最近邻算法不能保证找到k个结果一样,过滤后的 K 最近邻算法也不能严格保证找到k个结果。但是,如果您使用播种,则会大大增加找到结果的几率。实际上,使用播种时,唯一无法获得k个结果的情况是,您的图中没有k个目标节点。

现在,任意填充结果的质量是未知的。这与similarityCutoff参数如何协调?在这里,我们选择了语义,其中播种会覆盖相似度截止值,并且您可能会获得相似度得分低于截止值的关联,但保证至少有k个关联。

播种是一个布尔属性,您可以开启或关闭(默认为关闭)。

您可以混合搭配源节点过滤、目标节点过滤和播种来实现您的目标。

配置过滤器和播种

您应该查阅K 最近邻配置以了解标准配置选项。

要使用的源节点过滤器由sourceNodeFilter配置参数指定。它不是必需的。

此参数接受以下之一

表 1. sourceNodeFilter 语法

单个节点 ID

sourceNodeFilter: 42

节点 ID 列表

sourceNodeFilter: [23, 42, 87]

单个节点

MATCH (person:Person) WITH person ORDER BY person.age DESC LIMIT 1 …​ sourceNodeFilter: n

节点列表

MATCH (person:Person) WHERE person.age > 35 collect(person) AS people …​ sourceNodeFilter: people

单个标签

sourceNodeFilter: 'Person'

要使用的目标节点过滤器由targetNodeFilter配置参数指定。它不是必需的。

此参数接受以下之一

表 2. targetNodeFilter 语法

单个节点 ID

targetNodeFilter: 117

节点 ID 列表

targetNodeFilter: [256, 512]

单个节点

MATCH (person:Person) WITH person ORDER BY person.age ASC LIMIT 1 …​ targetNodeFilter: n

节点列表

MATCH (person:Person) WHERE person.age < 35 collect(person) AS people …​ targetNodeFilter: people

单个标签

targetNodeFilter: 'Person'

可以使用seedTargetNodes配置参数启用播种。默认为false

语法

本节介绍了在每种执行模式下执行过滤后的 K 最近邻算法所使用的语法。我们正在描述语法的命名图变体。要了解有关一般语法变体的更多信息,请参阅语法概述

每种模式下的过滤后的 K 最近邻语法
在命名图上以流模式运行过滤后的 K 最近邻算法。
CALL gds.knn.filtered.stream(
  graphName: String,
  configuration: Map
) YIELD
  node1: Integer,
  node2: Integer,
  similarity: Float
表 3. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

映射

{}

算法特定和/或图过滤的配置。

表 4. 配置
名称 类型 默认值 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。将包含具有任何给定标签的节点。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。将包含具有任何给定类型的关系。

concurrency

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

可以提供的 ID,以便更容易跟踪算法的进度。

logProgress

布尔值

true

如果禁用,则不会记录进度百分比。

nodeProperties

字符串或映射或字符串/映射列表

n/a

要用于相似度计算的节点属性及其选定的相似度指标。接受单个属性键、属性键到指标的映射或属性键和/或映射列表(如上所示)。有关详细信息,请参阅节点属性和指标配置

topK

整数

10

为每个节点查找的邻居数。将返回 K 个最近邻居。此值不能小于 1。

sampleRate

浮点数

0.5

限制每个节点比较次数的采样率。值必须介于 0(不包含)和 1(包含)之间。

deltaThreshold

浮点数

0.001

作为百分比的值,用于确定何时提前停止。如果发生的更新少于配置值,则算法停止。值必须介于 0(不包含)和 1(包含)之间。

maxIterations

整数

100

硬性限制,在经过这么多迭代后停止算法。

randomJoins

整数

10

每次迭代中,每个节点基于随机选择连接新节点邻居的随机尝试次数。

initialSampler

字符串

"uniform"

用于为每个节点采样前 k 个随机邻居的方法。"uniform" 和 "randomWalk"(均不区分大小写)是有效的输入。

randomSeed

整数

n/a

控制算法随机性的种子值。请注意,设置此参数时,concurrency必须设置为 1。

similarityCutoff

浮点数

0

从 K 个最近邻节点列表中过滤掉相似度低于此阈值的节点。

perturbationRate

浮点数

0

用遇到的相似度相等的邻居替换最不相似已知邻居的概率。

sourceNodeFilter

整数或整数列表或字符串

n/a

要应用的源节点过滤器。接受单个节点 ID、节点 ID 列表或单个标签。

targetNodeFilter

整数或整数列表或字符串

n/a

要应用的目标节点过滤器。接受单个节点 ID、节点 ID 列表或单个标签。

seedTargetNodes

布尔值

false

启用目标节点的播种。

表 5. 结果
名称 类型 描述

node1

整数

第一个节点的节点 ID。

node2

整数

第二个节点的节点 ID。

similarity

浮点数

两个节点的相似度得分。

在命名图上以统计模式运行 K 最近邻算法。
CALL gds.knn.filtered.stats(
  graphName: String,
  configuration: Map
)
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  nodesCompared: Integer,
  ranIterations: Integer,
  didConverge: Boolean,
  nodePairsConsidered: Integer,
  similarityPairs: Integer,
  similarityDistribution: Map,
  configuration: Map
表 6. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

映射

{}

算法特定和/或图过滤的配置。

表 7. 配置
名称 类型 默认值 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。将包含具有任何给定标签的节点。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。将包含具有任何给定类型的关系。

concurrency

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

可以提供的 ID,以便更容易跟踪算法的进度。

logProgress

布尔值

true

如果禁用,则不会记录进度百分比。

nodeProperties

字符串或映射或字符串/映射列表

n/a

要用于相似度计算的节点属性及其选定的相似度指标。接受单个属性键、属性键到指标的映射或属性键和/或映射列表(如上所示)。有关详细信息,请参阅节点属性和指标配置

topK

整数

10

为每个节点查找的邻居数。将返回 K 个最近邻居。此值不能小于 1。

sampleRate

浮点数

0.5

限制每个节点比较次数的采样率。值必须介于 0(不包含)和 1(包含)之间。

deltaThreshold

浮点数

0.001

作为百分比的值,用于确定何时提前停止。如果发生的更新少于配置值,则算法停止。值必须介于 0(不包含)和 1(包含)之间。

maxIterations

整数

100

硬性限制,在经过这么多迭代后停止算法。

randomJoins

整数

10

每次迭代中,每个节点基于随机选择连接新节点邻居的随机尝试次数。

initialSampler

字符串

"uniform"

用于为每个节点采样前 k 个随机邻居的方法。"uniform" 和 "randomWalk"(均不区分大小写)是有效的输入。

randomSeed

整数

n/a

控制算法随机性的种子值。请注意,设置此参数时,concurrency必须设置为 1。

similarityCutoff

浮点数

0

从 K 个最近邻节点列表中过滤掉相似度低于此阈值的节点。

perturbationRate

浮点数

0

用遇到的相似度相等的邻居替换最不相似已知邻居的概率。

sourceNodeFilter

整数或整数列表或字符串

n/a

要应用的源节点过滤器。接受单个节点 ID、节点 ID 列表或单个标签。

targetNodeFilter

整数或整数列表或字符串

n/a

要应用的目标节点过滤器。接受单个节点 ID、节点 ID 列表或单个标签。

seedTargetNodes

布尔值

false

启用目标节点的播种。

表 8. 结果
名称 类型 描述

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

nodePairsConsidered

整数

相似度计算次数。

preProcessingMillis

整数

预处理数据所用的毫秒数。

computeMillis

整数

运行算法所用的毫秒数。

postProcessingMillis

整数

计算相似度值分布统计信息所用的毫秒数。

nodesCompared

整数

计算相似度的节点数。

similarityPairs

整数

结果中的相似度数量。

similarityDistribution

映射

包含计算出的相似度结果的最小值、最大值、平均值以及 p50、p75、p90、p95、p99 和 p999 百分位数的值的映射。

configuration

映射

用于运行算法的配置。

在存储在目录中的图上以变异模式运行 K 最近邻算法。
CALL gds.knn.filtered.mutate(
  graphName: String,
  configuration: Map
)
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  mutateMillis: Integer,
  postProcessingMillis: Integer,
  relationshipsWritten: Integer,
  nodesCompared: Integer,
  ranIterations: Integer,
  didConverge: Boolean,
  nodePairsConsidered: Integer,
  similarityDistribution: Map,
  configuration: Map
表 9. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

映射

{}

算法特定和/或图过滤的配置。

表 10. 配置
名称 类型 默认值 可选 描述

mutateRelationshipType

字符串

n/a

写入投影图的新关系所使用关系类型。

mutateProperty

字符串

n/a

GDS 图中写入相似度得分的关联属性。

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。

concurrency

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

可以提供的 ID,以便更容易跟踪算法的进度。

nodeProperties

字符串或映射或字符串/映射列表

n/a

要用于相似度计算的节点属性及其选定的相似度指标。接受单个属性键、属性键到指标的映射或属性键和/或映射列表(如上所示)。有关详细信息,请参阅节点属性和指标配置

topK

整数

10

为每个节点查找的邻居数。将返回 K 个最近邻居。此值不能小于 1。

sampleRate

浮点数

0.5

限制每个节点比较次数的采样率。值必须介于 0(不包含)和 1(包含)之间。

deltaThreshold

浮点数

0.001

作为百分比的值,用于确定何时提前停止。如果发生的更新少于配置值,则算法停止。值必须介于 0(不包含)和 1(包含)之间。

maxIterations

整数

100

硬性限制,在经过这么多迭代后停止算法。

randomJoins

整数

10

每次迭代中,每个节点基于随机选择连接新节点邻居的随机尝试次数。

initialSampler

字符串

"uniform"

用于为每个节点采样前 k 个随机邻居的方法。"uniform" 和 "randomWalk"(均不区分大小写)是有效的输入。

randomSeed

整数

n/a

控制算法随机性的种子值。请注意,设置此参数时,concurrency必须设置为 1。

similarityCutoff

浮点数

0

从 K 个最近邻节点列表中过滤掉相似度低于此阈值的节点。

perturbationRate

浮点数

0

用遇到的相似度相等的邻居替换最不相似已知邻居的概率。

sourceNodeFilter

整数或整数列表或字符串

n/a

要应用的源节点过滤器。接受单个节点 ID、节点 ID 列表或单个标签。

targetNodeFilter

整数或整数列表或字符串

n/a

要应用的目标节点过滤器。接受单个节点 ID、节点 ID 列表或单个标签。

seedTargetNodes

布尔值

false

启用目标节点的播种。

表 11. 结果
名称 类型 描述

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

nodePairsConsidered

整数

相似度计算次数。

preProcessingMillis

整数

预处理数据所用的毫秒数。

computeMillis

整数

运行算法所用的毫秒数。

mutateMillis

整数

向投影图添加属性所用的毫秒数。

postProcessingMillis

整数

计算相似度值分布统计信息所用的毫秒数。

nodesCompared

整数

计算相似度的节点数。

relationshipsWritten

整数

创建的关系数。

similarityDistribution

映射

包含计算出的相似度结果的最小值、最大值、平均值、标准差以及 p1、p5、p10、p25、p75、p90、p95、p99、p100 百分位数的值的映射。

configuration

映射

用于运行算法的配置。

在存储在目录中的图上以写入模式运行 K 最近邻算法。
CALL gds.knn.filtered.write(
  graphName: String,
  configuration: Map
)
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  writeMillis: Integer,
  postProcessingMillis: Integer,
  nodesCompared: Integer,
  ranIterations: Integer,
  didConverge: Boolean,
  nodePairsConsidered: Integer,
  relationshipsWritten: Integer,
  similarityDistribution: Map,
  configuration: Map
表 12. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

映射

{}

算法特定和/或图过滤的配置。

表 13. 配置
名称 类型 默认值 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。将包含具有任何给定标签的节点。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。将包含具有任何给定类型的关系。

concurrency

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

可以提供的 ID,以便更容易跟踪算法的进度。

logProgress

布尔值

true

如果禁用,则不会记录进度百分比。

writeConcurrency

整数

'concurrency' 的值

用于将结果写入 Neo4j 的并发线程数。

writeRelationshipType

字符串

n/a

用于将计算出的关系持久化到 Neo4j 数据库中的关系类型。

writeProperty

字符串

n/a

Neo4j 数据库中写入相似度得分的关联属性。

nodeProperties

字符串或映射或字符串/映射列表

n/a

要用于相似度计算的节点属性及其选定的相似度指标。接受单个属性键、属性键到指标的映射或属性键和/或映射列表(如上所示)。有关详细信息,请参阅节点属性和指标配置

topK

整数

10

为每个节点查找的邻居数。将返回 K 个最近邻居。此值不能小于 1。

sampleRate

浮点数

0.5

限制每个节点比较次数的采样率。值必须介于 0(不包含)和 1(包含)之间。

deltaThreshold

浮点数

0.001

作为百分比的值,用于确定何时提前停止。如果发生的更新少于配置值,则算法停止。值必须介于 0(不包含)和 1(包含)之间。

maxIterations

整数

100

硬性限制,在经过这么多迭代后停止算法。

randomJoins

整数

10

每次迭代中,每个节点基于随机选择连接新节点邻居的随机尝试次数。

initialSampler

字符串

"uniform"

用于为每个节点采样前 k 个随机邻居的方法。"uniform" 和 "randomWalk"(均不区分大小写)是有效的输入。

randomSeed

整数

n/a

控制算法随机性的种子值。请注意,设置此参数时,concurrency必须设置为 1。

similarityCutoff

浮点数

0

从 K 个最近邻节点列表中过滤掉相似度低于此阈值的节点。

perturbationRate

浮点数

0

用遇到的相似度相等的邻居替换最不相似已知邻居的概率。

sourceNodeFilter

整数或整数列表或字符串

n/a

要应用的源节点过滤器。接受单个节点 ID、节点 ID 列表或单个标签。

targetNodeFilter

整数或整数列表或字符串

n/a

要应用的目标节点过滤器。接受单个节点 ID、节点 ID 列表或单个标签。

seedTargetNodes

布尔值

false

启用目标节点的播种。

表 14. 结果
名称 类型 描述

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

nodePairsConsidered

整数

相似度计算次数。

preProcessingMillis

整数

预处理数据所用的毫秒数。

computeMillis

整数

运行算法所用的毫秒数。

writeMillis

整数

将结果数据写回 Neo4j 所用的毫秒数。

postProcessingMillis

整数

计算相似度值分布统计信息所用的毫秒数。

nodesCompared

整数

计算相似度的节点数。

relationshipsWritten

整数

创建的关系数。

similarityDistribution

映射

包含计算出的相似度结果的最小值、最大值、平均值、标准差以及 p1、p5、p10、p25、p75、p90、p95、p99、p100 百分位数的值的映射。

configuration

映射

用于运行算法的配置。

示例

以下所有示例都应在空数据库中运行。

这些示例使用Cypher 投影作为规范。原生投影将在未来版本中弃用。

在本节中,我们将展示在具体图上运行过滤后的 K 最近邻算法的示例。

回想一下,KNN 可以在仅包含节点的图上运行,而无需任何关系。

考虑以下五个不连通的 Person 节点的图,其中一些是素食主义者。

Visualization of the example graph
CREATE (alice:Person:Vegan {name: 'Alice', age: 24})
CREATE (bob:Person:Vegan {name: 'Bob', age: 73})
CREATE (carol:Person {name: 'Carol', age: 24})
CREATE (dave:Person:Vegan {name: 'Dave', age: 48})
CREATE (eve:Person:Vegan {name: 'Eve', age: 67});

在本例中,我们希望使用过滤后的 K 最近邻算法根据年龄比较人员。

以下语句将投影图并将其存储在图目录中。
MATCH (p:Person|Vegan)
RETURN gds.graph.project(
  'myGraph',
  p,
  null,
  {
    sourceNodeLabels: labels(p),
    targetNodeLabels: [],
    sourceNodeProperties: p { .age },
    targetNodeProperties: {}
  }
)

内存估算

首先,我们将使用 estimate 过程估算运行算法的成本。这可以使用任何执行模式完成。在本例中,我们将使用 stats 模式。估算算法有助于了解在图上运行算法的内存影响。当您稍后在其中一种执行模式下实际运行算法时,系统将执行估算。如果估算表明执行超出其内存限制的可能性非常高,则会禁止执行。要了解更多信息,请参阅自动估算和执行阻塞

有关 estimate 的更多详细信息,请参阅内存估算

以下将估算运行算法所需的内存。
CALL gds.knn.filtered.stream.estimate('myGraph', {
    topK: 1,
    nodeProperties: ['age'],
    sourceNodeFilter: 'Vegan'
})
YIELD nodeCount, relationshipCount, bytesMin, bytesMax, requiredMemory
表 15. 结果
节点数 关系数 最小字节数 最大字节数 所需内存

5

0

2256

3312

"[2256 字节 ... 3312 字节]"

过滤源节点

stream 执行模式下,算法会返回每个关系的相似度得分。这使我们能够直接检查结果或在 Cypher 中对其进行后处理,而不会产生任何副作用。

有关 stream 模式的更多详细信息,请参阅

以下将运行算法,过滤源节点并流式传输结果。
CALL gds.knn.filtered.stream('myGraph', {
    topK: 1,
    nodeProperties: ['age'],
    sourceNodeFilter: 'Vegan',
    // The following parameters are set to produce a deterministic result
    randomSeed: 1337,
    concurrency: 1,
    sampleRate: 1.0,
    deltaThreshold: 0.0
})
YIELD node1, node2, similarity
RETURN gds.util.asNode(node1).name AS Person1, gds.util.asNode(node2).name AS Person2, similarity
ORDER BY similarity DESCENDING, Person1, Person2
表 16. 结果
Person1 Person2 similarity

"Alice"

"Carol"

1.0

"Bob"

"Eve"

0.14285714285714285

"Eve"

"Bob"

0.14285714285714285

"Dave"

"Eve"

0.05

对于大多数参数,我们使用过程配置参数的默认值。randomSeedconcurrency 设置为在每次调用时产生相同的结果。topK 参数设置为 1,以便仅返回每个节点的单个最近邻。请注意,由于 Carol 不是素食主义者,因此她未包含在结果集中 - 她是被源节点过滤器过滤掉的。

过滤和播种目标节点

stream 执行模式下,算法会返回每个关系的相似度得分。这使我们能够直接检查结果或在 Cypher 中对其进行后处理,而不会产生任何副作用。

有关 stream 模式的更多详细信息,请参阅

以下将运行算法,播种目标节点集。然后,它将过滤目标节点并流式传输结果。
CALL gds.knn.filtered.stream('myGraph', {
    topK: 1,
    nodeProperties: ['age'],
    targetNodeFilter: 'Vegan',
    seedTargetNodes: true,
    similarityCutoff: 0.3,
    // The following parameters are set to produce a deterministic result
    randomSeed: 1337,
    concurrency: 1,
    sampleRate: 1.0,
    deltaThreshold: 0.0
})
YIELD node1, node2, similarity
RETURN gds.util.asNode(node1).name AS Person1, gds.util.asNode(node2).name AS Person2, similarity
ORDER BY similarity DESCENDING, Person1, Person2
表 17. 结果
Person1 Person2 similarity

"Carol"

"Alice"

1.0

"Bob"

"Eve"

0.14285714285714285

"Eve"

"Bob"

0.14285714285714285

"Dave"

"Eve"

0.05

"Alice"

"Dave"

0.04

这里,我们过滤标签为 Vegan 的目标节点,并设置相似度截止值以确保高质量的结果。通常,这意味着结果更少。但我们也启用了播种,这是当您希望保证为每个节点输出k个邻居时所执行的操作。在这种情况下,播种会覆盖相似度截止值,您在输出中可以看到每个源节点都有 1 个结果,即使它们的得分相当低。我们碰巧知道,在正常情况下,Alice 在年龄相似度方面与 Carol 的得分非常高。但是,由于 Carol 不是素食主义者,因此她未包含在结果集中 - 她是被目标节点过滤器过滤掉的 - 并且 Alice 与 Dave 匹配。

统计信息

stats 执行模式下,算法会返回包含算法结果摘要的单行。此执行模式没有任何副作用。通过检查 computeMillis 返回项,它可以用于评估算法性能。在下面的示例中,我们将省略返回时间。可以在语法部分中找到过程的完整签名。

有关 stats 模式的更多详细信息,请参阅统计信息

以下将运行算法并以统计和测量值的格式返回结果。
CALL gds.knn.filtered.stats('myGraph', {
    topK: 1,
    concurrency: 1,
    randomSeed: 42,
    nodeProperties: ['age'],
    sourceNodeFilter: 'Vegan'
})
YIELD nodesCompared, similarityPairs
表 18. 结果
nodesCompared similarityPairs

5

4

变异

mutate 执行模式扩展了 stats 模式,并具有一个重要的副作用:使用新的关系属性更新命名图,该属性包含该关系的相似度得分。新属性的名称使用必填配置参数 mutateProperty 指定。结果是与 stats 类似的单个摘要行,但包含一些其他指标。当多个算法结合使用时,mutate 模式特别有用。

有关 mutate 模式的更多详细信息,请参阅变异

以下将运行算法并将结果写回内存图。
CALL gds.knn.filtered.mutate('myGraph', {
    mutateRelationshipType: 'SIMILAR',
    mutateProperty: 'score',
    topK: 1,
    randomSeed: 42,
    concurrency: 1,
    nodeProperties: ['age'],
    sourceNodeFilter: 'Vegan'
})
YIELD nodesCompared, relationshipsWritten
表 19. 结果
nodesCompared relationshipsWritten

5

4

从结果可以看出,创建的关系数等于流式传输示例中的行数。

变异产生的关系始终是有向的,即使输入图是无向的。例如,如果 a → ba 的 topK,并且对称地 b → ab 的 topK,则看起来好像生成了一个无向关系。但是,它们只是两个独立产生的有向关系。

写入

write 执行模式扩展了 stats 模式,并具有一个重要的副作用:对于每对节点,我们都会创建一个关系,并将相似度得分作为属性写入 Neo4j 数据库。新关系的类型使用必填配置参数 writeRelationshipType 指定。每个新关系都存储其表示的两个节点之间的相似度得分。关系属性键使用必填配置参数 writeProperty 设置。结果是与 stats 类似的单个摘要行,但包含一些其他指标。

有关 write 模式的更多详细信息,请参阅写入

以下将运行算法并将结果写回。
CALL gds.knn.filtered.write('myGraph', {
    writeRelationshipType: 'SIMILAR',
    writeProperty: 'score',
    topK: 1,
    randomSeed: 42,
    concurrency: 1,
    nodeProperties: ['age'],
    sourceNodeFilter: 'Vegan'
})
YIELD nodesCompared, relationshipsWritten
表 20. 结果
nodesCompared relationshipsWritten

5

4

从结果可以看出,创建的关系数等于流式传输示例中的行数。

写入的关系始终是有向的,即使输入图是无向的。例如,如果 a → ba 的 topK,并且对称地 b → ab 的 topK,则看起来好像写入了无向关系。但是,它们只是两个独立写入的有向关系。