过滤后的 K-最近邻

有向

无向

异构节点

异构关系

加权关系

词汇表

有向: 有向特性。该算法在有向图上定义良好。
有向: 有向特性。该算法忽略图的方向。
有向: 有向特性。该算法不在有向图上运行。
无向: 无向特性。该算法在无向图上定义良好。
无向: 无向特性。该算法忽略图的无向性。
异构节点: 异构节点完全支持。该算法能够区分不同类型的节点。
异构节点: 异构节点允许。该算法将所有选定节点视为相似，无论其标签如何。
异构关系: 异构关系完全支持。该算法能够区分不同类型的关系。
异构关系: 异构关系允许。该算法将所有选定关系视为相似，无论其类型如何。
加权关系: 加权特性。该算法支持将关系属性用作权重，通过 relationshipWeightProperty 配置参数指定。
加权关系: 加权特性。该算法将每个关系视为同等重要，丢弃任何关系权重的值。

简介

过滤后的 K-最近邻算法扩展了我们流行的 K-最近邻算法，增加了对源节点、目标节点或两者的过滤功能。

过滤类型

我们处于一个由源节点、目标节点以及它们之间包含相似度得分或距离的关系构成的世界中。

与 K-最近邻算法一样，过滤后的输出是节点及其 K-最近邻之间的新关系。相似度得分通过关系属性表示。

此外，过滤后的 K-最近邻算法让您可以控制关系两端的节点，从而避免您自己过滤大型结果集，并更好地控制输出量。

源节点过滤

对于某些用例，您会希望限制可以充当源节点的节点集；或者可以充当源节点的节点类型。这就是源节点过滤。您希望获得源自这些特定节点或这种特定节点类型的得分最高的关系。

源节点过滤器可以是以下形式之一：

一组节点
一个标签
一组节点和一个标签

目标节点过滤

就像源节点一样，您有时希望限制可以作为目标节点的节点集或节点类型，即目标节点过滤。对于给定源节点，目标节点来自某个集合或属于某种类型的得分最高的关系。

与源节点过滤器类似，目标节点过滤器可以是以下形式之一：

一组节点
一个标签
一组节点和一个标签

目标节点过滤的种子填充

目标节点过滤的另一个用例是，您绝对希望产生 k 个结果。您希望用关系填充一个固定大小的桶，您希望 K-最近邻算法能找到足够多的高分关系，但作为一项保障政策，我们可以用任意关系填充您的结果集，以“保证”获得一个满载 k 个结果的桶。

就像 K-最近邻算法不保证找到 k 个结果一样，过滤后的 K-最近邻算法也不严格保证找到 k 个结果。但是，如果您采用种子填充，您将大大提高找到结果的几率。事实上，有了种子填充，您唯一不会获得 k 个结果的情况是，您的图中没有 k 个目标节点。

现在，任意填充结果的质量是未知的。这与 similarityCutoff 参数如何协调？我们在此选择了语义，其中种子填充会覆盖相似度截止值，您可能会得到相似度得分低于截止值的结果——但可以保证至少有 k 个结果。

种子填充是一个布尔属性，您可以将其打开或关闭（默认）。

您可以混合和匹配源节点过滤、目标节点过滤和种子填充以实现您的目标。

配置过滤器和种子填充

您应该查阅K-最近邻配置以获取标准配置选项。

要使用的源节点过滤器由 sourceNodeFilter 配置参数指定。它不是强制性的。

此参数接受以下之一：

表 1. sourceNodeFilter 语法
单个节点 ID	`sourceNodeFilter: 42`
节点 ID 列表	`sourceNodeFilter: [23, 42, 87]`
单个节点	`MATCH (person:Person) WITH person ORDER BY person.age DESC LIMIT 1` … `sourceNodeFilter: n`
节点列表	`MATCH (person:Person) WHERE person.age > 35 collect(person) AS people` … `sourceNodeFilter: people`
单个标签	`sourceNodeFilter: 'Person'`

要使用的目标节点过滤器由 targetNodeFilter 配置参数指定。它不是强制性的。

此参数接受以下之一：

表 2. targetNodeFilter 语法
单个节点 ID	`targetNodeFilter: 117`
节点 ID 列表	`targetNodeFilter: [256, 512]`
单个节点	`MATCH (person:Person) WITH person ORDER BY person.age ASC LIMIT 1` … `targetNodeFilter: n`
节点列表	`MATCH (person:Person) WHERE person.age < 35 collect(person) AS people` … `targetNodeFilter: people`
单个标签	`targetNodeFilter: 'Person'`

可以通过 seedTargetNodes 配置参数启用种子填充。默认值为 false。

语法

本节涵盖了在每种执行模式下执行过滤后的 K-最近邻算法所使用的语法。我们将描述命名图语法的变体。要了解有关通用语法变体的更多信息，请参阅语法概述。

过滤后的 K-最近邻算法每种模式的语法

在命名图上以流模式运行过滤后的 K-最近邻算法。

CALL gds.knn.filtered.stream(
  graphName: String,
  configuration: Map
) YIELD
  node1: Integer,
  node2: Integer,
  similarity: Float

表 3. 参数
名称	类型	默认	可选	描述
graphName	字符串	`不适用`	否	存储在目录中的图的名称。
configuration	映射	`{}`	是	算法特定和/或图过滤的配置。

表 4. 配置
名称	类型	默认	可选	描述
nodeLabels	字符串列表	`['*']`	是	使用给定的节点标签过滤命名图。将包含具有任何给定标签的节点。
relationshipTypes	字符串列表	`['*']`	是	使用给定的关系类型过滤命名图。将包含具有任何给定类型的关系。
concurrency	整数	`4 ^[1]`	是	运行算法使用的并发线程数。
jobId	字符串	`内部生成`	是	一个可以提供的 ID，以便更轻松地跟踪算法的进度。
logProgress	布尔值	`true`	是	如果禁用，则不会记录进度百分比。
nodeProperties	字符串或映射或字符串/映射列表	`不适用`	否	用于相似度计算的节点属性及其选定的相似度度量。接受单个属性键、属性键到度量的映射或属性键和/或映射的列表，如上所示。有关详细信息，请参阅节点属性和度量配置。
topK	整数	`10`	是	为每个节点查找的邻居数量。返回 K-最近邻。该值不能低于 1。
sampleRate	浮点数	`0.5`	是	采样率以限制每个节点的比较次数。值必须介于 0（不含）和 1（含）之间。
deltaThreshold	浮点数	`0.001`	是	一个百分比值，用于确定何时提前停止。如果更新次数少于配置值，算法将停止。值必须介于 0（不含）和 1（含）之间。
maxIterations	整数	`100`	是	算法在达到此迭代次数后停止的硬性限制。
randomJoins	整数	`10`	是	每次迭代中，每个节点基于随机选择连接新节点邻居的随机尝试次数。
initialSampler	字符串	`"uniform"`	是	用于为每个节点采样前 `k` 个随机邻居的方法。“uniform”和“randomWalk”均为有效输入，不区分大小写。
randomSeed	整数	`不适用`	是	控制算法随机性的种子值。请注意，设置此参数时 `concurrency` 必须设置为 1。
similarityCutoff	浮点数	`0`	是	从 K-最近邻列表中过滤掉相似度低于此阈值的节点。
perturbationRate	浮点数	`0`	是	用遇到的相似度相等的邻居替换已知最不相似邻居的概率。
sourceNodeFilter	整数或整数列表或字符串	`不适用`	否	要应用的源节点过滤器。接受单个节点 ID、节点 ID 列表或单个标签。
targetNodeFilter	整数或整数列表或字符串	`不适用`	否	要应用的目标节点过滤器。接受单个节点 ID、节点 ID 列表或单个标签。
seedTargetNodes	布尔值	`false`	是	启用目标节点的种子填充。
1. 在 GDS 会话中，默认值为可用处理器数量。

表 5. 结果
名称	类型	描述
`node1`	整数	第一个节点的节点 ID。
`node2`	整数	第二个节点的节点 ID。
`similarity`	浮点数	两个节点的相似度得分。

在命名图上以统计模式运行 K-最近邻算法。

CALL gds.knn.filtered.stats(
  graphName: String,
  configuration: Map
)
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  nodesCompared: Integer,
  ranIterations: Integer,
  didConverge: Boolean,
  nodePairsConsidered: Integer,
  similarityPairs: Integer,
  similarityDistribution: Map,
  configuration: Map

表 6. 参数
名称	类型	默认	可选	描述
graphName	字符串	`不适用`	否	存储在目录中的图的名称。
configuration	映射	`{}`	是	算法特定和/或图过滤的配置。

表 7. 配置
名称	类型	默认	可选	描述
nodeLabels	字符串列表	`['*']`	是	使用给定的节点标签过滤命名图。将包含具有任何给定标签的节点。
relationshipTypes	字符串列表	`['*']`	是	使用给定的关系类型过滤命名图。将包含具有任何给定类型的关系。
concurrency	整数	`4 ^[2]`	是	运行算法使用的并发线程数。
jobId	字符串	`内部生成`	是	一个可以提供的 ID，以便更轻松地跟踪算法的进度。
logProgress	布尔值	`true`	是	如果禁用，则不会记录进度百分比。
nodeProperties	字符串或映射或字符串/映射列表	`不适用`	否	用于相似度计算的节点属性及其选定的相似度度量。接受单个属性键、属性键到度量的映射或属性键和/或映射的列表，如上所示。有关详细信息，请参阅节点属性和度量配置。
topK	整数	`10`	是	为每个节点查找的邻居数量。返回 K-最近邻。该值不能低于 1。
sampleRate	浮点数	`0.5`	是	采样率以限制每个节点的比较次数。值必须介于 0（不含）和 1（含）之间。
deltaThreshold	浮点数	`0.001`	是	一个百分比值，用于确定何时提前停止。如果更新次数少于配置值，算法将停止。值必须介于 0（不含）和 1（含）之间。
maxIterations	整数	`100`	是	算法在达到此迭代次数后停止的硬性限制。
randomJoins	整数	`10`	是	每次迭代中，每个节点基于随机选择连接新节点邻居的随机尝试次数。
initialSampler	字符串	`"uniform"`	是	用于为每个节点采样前 `k` 个随机邻居的方法。“uniform”和“randomWalk”均为有效输入，不区分大小写。
randomSeed	整数	`不适用`	是	控制算法随机性的种子值。请注意，设置此参数时 `concurrency` 必须设置为 1。
similarityCutoff	浮点数	`0`	是	从 K-最近邻列表中过滤掉相似度低于此阈值的节点。
perturbationRate	浮点数	`0`	是	用遇到的相似度相等的邻居替换已知最不相似邻居的概率。
sourceNodeFilter	整数或整数列表或字符串	`不适用`	否	要应用的源节点过滤器。接受单个节点 ID、节点 ID 列表或单个标签。
targetNodeFilter	整数或整数列表或字符串	`不适用`	否	要应用的目标节点过滤器。接受单个节点 ID、节点 ID 列表或单个标签。
seedTargetNodes	布尔值	`false`	是	启用目标节点的种子填充。
2. 在 GDS 会话中，默认值为可用处理器数量。

表 8. 结果
名称	类型	描述
ranIterations	整数	运行的迭代次数。
didConverge	布尔值	指示算法是否收敛。
nodePairsConsidered	整数	相似度计算的次数。
preProcessingMillis	整数	预处理数据所用的毫秒数。
computeMillis	整数	运行算法所用的毫秒数。
postProcessingMillis	整数	计算相似度值分布统计数据所用的毫秒数。
nodesCompared	整数	计算相似度的节点数量。
similarityPairs	整数	结果中的相似度对数。
similarityDistribution	映射	包含 min、max、mean 以及 p50、p75、p90、p95、p99 和 p999 百分位值（计算出的相似度结果）的映射。
configuration	映射	用于运行算法的配置。

在目录中存储的图上以修改模式运行 K-最近邻算法。

CALL gds.knn.filtered.mutate(
  graphName: String,
  configuration: Map
)
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  mutateMillis: Integer,
  postProcessingMillis: Integer,
  relationshipsWritten: Integer,
  nodesCompared: Integer,
  ranIterations: Integer,
  didConverge: Boolean,
  nodePairsConsidered: Integer,
  similarityDistribution: Map,
  configuration: Map

表 9. 参数
名称	类型	默认	可选	描述
graphName	字符串	`不适用`	否	存储在目录中的图的名称。
configuration	映射	`{}`	是	算法特定和/或图过滤的配置。

表 10. 配置
名称	类型	默认	可选	描述
mutateRelationshipType	字符串	`不适用`	否	用于写入投影图的新关系的类型。
mutateProperty	字符串	`不适用`	否	GDS 图中用于写入相似度得分的关系属性。
nodeLabels	字符串列表	`['*']`	是	使用给定的节点标签过滤命名图。
relationshipTypes	字符串列表	`['*']`	是	使用给定的关系类型过滤命名图。
concurrency	整数	`4`	是	运行算法使用的并发线程数。
jobId	字符串	`内部生成`	是	一个可以提供的 ID，以便更轻松地跟踪算法的进度。
nodeProperties	字符串或映射或字符串/映射列表	`不适用`	否	用于相似度计算的节点属性及其选定的相似度度量。接受单个属性键、属性键到度量的映射或属性键和/或映射的列表，如上所示。有关详细信息，请参阅节点属性和度量配置。
topK	整数	`10`	是	为每个节点查找的邻居数量。返回 K-最近邻。该值不能低于 1。
sampleRate	浮点数	`0.5`	是	采样率以限制每个节点的比较次数。值必须介于 0（不含）和 1（含）之间。
deltaThreshold	浮点数	`0.001`	是	一个百分比值，用于确定何时提前停止。如果更新次数少于配置值，算法将停止。值必须介于 0（不含）和 1（含）之间。
maxIterations	整数	`100`	是	算法在达到此迭代次数后停止的硬性限制。
randomJoins	整数	`10`	是	每次迭代中，每个节点基于随机选择连接新节点邻居的随机尝试次数。
initialSampler	字符串	`"uniform"`	是	用于为每个节点采样前 `k` 个随机邻居的方法。“uniform”和“randomWalk”均为有效输入，不区分大小写。
randomSeed	整数	`不适用`	是	控制算法随机性的种子值。请注意，设置此参数时 `concurrency` 必须设置为 1。
similarityCutoff	浮点数	`0`	是	从 K-最近邻列表中过滤掉相似度低于此阈值的节点。
perturbationRate	浮点数	`0`	是	用遇到的相似度相等的邻居替换已知最不相似邻居的概率。
sourceNodeFilter	整数或整数列表或字符串	`不适用`	否	要应用的源节点过滤器。接受单个节点 ID、节点 ID 列表或单个标签。
targetNodeFilter	整数或整数列表或字符串	`不适用`	否	要应用的目标节点过滤器。接受单个节点 ID、节点 ID 列表或单个标签。
seedTargetNodes	布尔值	`false`	是	启用目标节点的种子填充。

表 11. 结果
名称	类型	描述
ranIterations	整数	运行的迭代次数。
didConverge	布尔值	指示算法是否收敛。
nodePairsConsidered	整数	相似度计算的次数。
preProcessingMillis	整数	预处理数据所用的毫秒数。
computeMillis	整数	运行算法所用的毫秒数。
mutateMillis	整数	将属性添加到投影图所用的毫秒数。
postProcessingMillis	整数	计算相似度值分布统计数据所用的毫秒数。
nodesCompared	整数	计算相似度的节点数量。
relationshipsWritten	整数	创建的关系数量。
similarityDistribution	映射	包含 min、max、mean、stdDev 以及 p1、p5、p10、p25、p75、p90、p95、p99、p100 百分位值（计算出的相似度结果）的映射。
configuration	映射	用于运行算法的配置。

在目录中存储的图上以写入模式运行 K-最近邻算法。

CALL gds.knn.filtered.write(
  graphName: String,
  configuration: Map
)
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  writeMillis: Integer,
  postProcessingMillis: Integer,
  nodesCompared: Integer,
  ranIterations: Integer,
  didConverge: Boolean,
  nodePairsConsidered: Integer,
  relationshipsWritten: Integer,
  similarityDistribution: Map,
  configuration: Map

表 12. 参数
名称	类型	默认	可选	描述
graphName	字符串	`不适用`	否	存储在目录中的图的名称。
configuration	映射	`{}`	是	算法特定和/或图过滤的配置。

表 13. 配置
名称	类型	默认	可选	描述
nodeLabels	字符串列表	`['*']`	是	使用给定的节点标签过滤命名图。将包含具有任何给定标签的节点。
relationshipTypes	字符串列表	`['*']`	是	使用给定的关系类型过滤命名图。将包含具有任何给定类型的关系。
concurrency	整数	`4 ^[3]`	是	运行算法使用的并发线程数。
jobId	字符串	`内部生成`	是	一个可以提供的 ID，以便更轻松地跟踪算法的进度。
logProgress	布尔值	`true`	是	如果禁用，则不会记录进度百分比。
writeConcurrency	整数	`“concurrency”的值`	是	用于将结果写入 Neo4j 的并发线程数。
writeRelationshipType	字符串	`不适用`	否	用于将计算出的关系持久化到 Neo4j 数据库的关系类型。
writeProperty	字符串	`不适用`	否	Neo4j 数据库中用于写入相似度得分的关系属性。
nodeProperties	字符串或映射或字符串/映射列表	`不适用`	否	用于相似度计算的节点属性及其选定的相似度度量。接受单个属性键、属性键到度量的映射或属性键和/或映射的列表，如上所示。有关详细信息，请参阅节点属性和度量配置。
topK	整数	`10`	是	为每个节点查找的邻居数量。返回 K-最近邻。该值不能低于 1。
sampleRate	浮点数	`0.5`	是	采样率以限制每个节点的比较次数。值必须介于 0（不含）和 1（含）之间。
deltaThreshold	浮点数	`0.001`	是	一个百分比值，用于确定何时提前停止。如果更新次数少于配置值，算法将停止。值必须介于 0（不含）和 1（含）之间。
maxIterations	整数	`100`	是	算法在达到此迭代次数后停止的硬性限制。
randomJoins	整数	`10`	是	每次迭代中，每个节点基于随机选择连接新节点邻居的随机尝试次数。
initialSampler	字符串	`"uniform"`	是	用于为每个节点采样前 `k` 个随机邻居的方法。“uniform”和“randomWalk”均为有效输入，不区分大小写。
randomSeed	整数	`不适用`	是	控制算法随机性的种子值。请注意，设置此参数时 `concurrency` 必须设置为 1。
similarityCutoff	浮点数	`0`	是	从 K-最近邻列表中过滤掉相似度低于此阈值的节点。
perturbationRate	浮点数	`0`	是	用遇到的相似度相等的邻居替换已知最不相似邻居的概率。
sourceNodeFilter	整数或整数列表或字符串	`不适用`	否	要应用的源节点过滤器。接受单个节点 ID、节点 ID 列表或单个标签。
targetNodeFilter	整数或整数列表或字符串	`不适用`	否	要应用的目标节点过滤器。接受单个节点 ID、节点 ID 列表或单个标签。
seedTargetNodes	布尔值	`false`	是	启用目标节点的种子填充。
3. 在 GDS 会话中，默认值为可用处理器数量。

表 14. 结果
名称	类型	描述
ranIterations	整数	运行的迭代次数。
didConverge	布尔值	指示算法是否收敛。
nodePairsConsidered	整数	相似度计算的次数。
preProcessingMillis	整数	预处理数据所用的毫秒数。
computeMillis	整数	运行算法所用的毫秒数。
writeMillis	整数	将结果数据写回 Neo4j 所用的毫秒数。
postProcessingMillis	整数	计算相似度值分布统计数据所用的毫秒数。
nodesCompared	整数	计算相似度的节点数量。
relationshipsWritten	整数	创建的关系数量。
similarityDistribution	映射	包含 min、max、mean、stdDev 以及 p1、p5、p10、p25、p75、p90、p95、p99、p100 百分位值（计算出的相似度结果）的映射。
configuration	映射	用于运行算法的配置。

示例

所有以下示例都应在空数据库中运行。

示例通常使用Cypher 投影。原生投影将在未来的版本中弃用。

在本节中，我们将展示在具体图上运行过滤后的 K-最近邻算法的示例。

回想一下，KNN 可以在仅包含节点，不包含任何关系的图上运行。

考虑以下由五个断开连接的 Person 节点组成的图，其中一些是 Vegan。

CREATE (alice:Person:Vegan {name: 'Alice', age: 24})
CREATE (bob:Person:Vegan {name: 'Bob', age: 73})
CREATE (carol:Person {name: 'Carol', age: 24})
CREATE (dave:Person:Vegan {name: 'Dave', age: 48})
CREATE (eve:Person:Vegan {name: 'Eve', age: 67});

在本例中，我们希望使用过滤后的 K-最近邻算法根据年龄比较人物。

以下语句将投影图并将其存储在图目录中。

MATCH (p:Person|Vegan)
RETURN gds.graph.project(
  'myGraph',
  p,
  null,
  {
    sourceNodeLabels: labels(p),
    targetNodeLabels: [],
    sourceNodeProperties: p { .age },
    targetNodeProperties: {}
  }
)

内存估算

首先，我们将使用 estimate 过程估算运行算法的成本。这可以通过任何执行模式完成。在此示例中，我们将使用 stats 模式。估算算法有助于了解在图上运行算法对内存的影响。当您稍后实际以某种执行模式运行算法时，系统将执行估算。如果估算显示执行极有可能超出其内存限制，则禁止执行。要了解更多信息，请参阅自动估算和执行阻止。

有关 estimate 的更多详细信息，请参阅内存估算。

以下将估算运行算法所需的内存

CALL gds.knn.filtered.stream.estimate('myGraph', {
    topK: 1,
    nodeProperties: ['age'],
    sourceNodeFilter: 'Vegan'
})
YIELD nodeCount, relationshipCount, bytesMin, bytesMax, requiredMemory

表 15. 结果
nodeCount	relationshipCount	bytesMin	bytesMax	requiredMemory
5	0	2256	3312	"[2256 字节 ... 3312 字节]"

过滤源节点

在 stream 执行模式下，算法返回每个关系的相似度得分。这允许我们直接检查结果或在 Cypher 中对其进行后处理，而没有任何副作用。

有关 stream 模式的更多详细信息，请参阅流式传输。

以下将运行算法，过滤源节点，并流式传输结果

CALL gds.knn.filtered.stream('myGraph', {
    topK: 1,
    nodeProperties: ['age'],
    sourceNodeFilter: 'Vegan',
    // The following parameters are set to produce a deterministic result
    randomSeed: 1337,
    concurrency: 1,
    sampleRate: 1.0,
    deltaThreshold: 0.0
})
YIELD node1, node2, similarity
RETURN gds.util.asNode(node1).name AS Person1, gds.util.asNode(node2).name AS Person2, similarity
ORDER BY similarity DESCENDING, Person1, Person2

表 16. 结果
人物 1	人物 2	similarity
"Alice"	"Carol"	1.0
"Bob"	"Eve"	0.14285714285714285
"Eve"	"Bob"	0.14285714285714285
"Dave"	"Eve"	0.05

我们对大多数参数使用过程配置参数的默认值。randomSeed 和 concurrency 设置为在每次调用时产生相同的结果。topK 参数设置为 1，以便只返回每个节点的单个最近邻居。请注意，因为 Carol 不是素食主义者，所以她不包含在结果集中——她被源节点过滤器过滤掉了。

过滤和种子填充目标节点

在 stream 执行模式下，算法返回每个关系的相似度得分。这允许我们直接检查结果或在 Cypher 中对其进行后处理，而没有任何副作用。

有关 stream 模式的更多详细信息，请参阅流式传输。

以下将运行算法，种子填充目标节点集。然后它将过滤目标节点并流式传输结果。

CALL gds.knn.filtered.stream('myGraph', {
    topK: 1,
    nodeProperties: ['age'],
    targetNodeFilter: 'Vegan',
    seedTargetNodes: true,
    similarityCutoff: 0.3,
    // The following parameters are set to produce a deterministic result
    randomSeed: 1337,
    concurrency: 1,
    sampleRate: 1.0,
    deltaThreshold: 0.0
})
YIELD node1, node2, similarity
RETURN gds.util.asNode(node1).name AS Person1, gds.util.asNode(node2).name AS Person2, similarity
ORDER BY similarity DESCENDING, Person1, Person2

表 17. 结果
人物 1	人物 2	similarity
"Carol"	"Alice"	1.0
"Bob"	"Eve"	0.14285714285714285
"Eve"	"Bob"	0.14285714285714285
"Dave"	"Eve"	0.05
"Alice"	"Dave"	0.04

这里我们过滤带有 Vegan 标签的目标节点，并设置相似度截止值以确保高质量结果。通常这意味着更少的结果。但我们也启用了种子填充，这是当您希望保证每个节点输出 k 个邻居时所做的。在这种情况下，种子填充会覆盖相似度截止值，您会在输出中看到每个源节点都有 1 个结果，即使它们的得分相当低。我们碰巧知道 Alice 在正常情况下与 Carol 在年龄相似度方面得分非常高。然而，由于 Carol 不是素食主义者，她没有被包含在结果集中——她被目标节点过滤器过滤掉了——相反，Alice 与 Dave 匹配。

统计

在 stats 执行模式下，算法返回一个包含算法结果摘要的单行。此执行模式没有任何副作用。通过检查 computeMillis 返回项，它可用于评估算法性能。在下面的示例中，我们将省略返回时间。该过程的完整签名可在语法部分中找到。

有关 stats 模式的更多详细信息，请参阅统计。

以下将运行算法并以统计和度量值的形式返回结果

CALL gds.knn.filtered.stats('myGraph', {
    topK: 1,
    concurrency: 1,
    randomSeed: 42,
    nodeProperties: ['age'],
    sourceNodeFilter: 'Vegan'
})
YIELD nodesCompared, similarityPairs

表 18. 结果
nodesCompared	similarityPairs
5	4

修改

mutate 执行模式扩展了 stats 模式，具有一个重要的副作用：更新命名图，其中包含一个新的关系属性，该属性包含该关系的相似度得分。新属性的名称使用强制配置参数 mutateProperty 指定。结果是一个单一的摘要行，类似于 stats，但带有一些附加指标。当多个算法协同使用时，mutate 模式特别有用。

有关 mutate 模式的更多详细信息，请参阅修改。

以下将运行算法，并将结果写回内存图

CALL gds.knn.filtered.mutate('myGraph', {
    mutateRelationshipType: 'SIMILAR',
    mutateProperty: 'score',
    topK: 1,
    randomSeed: 42,
    concurrency: 1,
    nodeProperties: ['age'],
    sourceNodeFilter: 'Vegan'
})
YIELD nodesCompared, relationshipsWritten

表 19. 结果
nodesCompared	relationshipsWritten
5	4

从结果中我们可以看出，创建的关系数量等于流式示例中的行数。

突变产生的关系总是定向的，即使输入图是无向的。例如，如果 a → b 是 a 的 topK 且对称地 b → a 是 b 的 topK，它看起来好像产生了无向关系。然而，它们只是独立产生的两个有向关系。

写入

write 执行模式扩展了 stats 模式，具有一个重要的副作用：对于每对节点，我们创建一个关系，并将其相似度得分作为属性写入 Neo4j 数据库。新关系的类型使用强制配置参数 writeRelationshipType 指定。每个新关系存储其所代表的两个节点之间的相似度得分。关系属性键使用强制配置参数 writeProperty 设置。结果是一个单一的摘要行，类似于 stats，但带有一些附加指标。

有关 write 模式的更多详细信息，请参阅写入。

以下将运行算法，并将结果写回

CALL gds.knn.filtered.write('myGraph', {
    writeRelationshipType: 'SIMILAR',
    writeProperty: 'score',
    topK: 1,
    randomSeed: 42,
    concurrency: 1,
    nodeProperties: ['age'],
    sourceNodeFilter: 'Vegan'
})
YIELD nodesCompared, relationshipsWritten

表 20. 结果
nodesCompared	relationshipsWritten
5	4

从结果中我们可以看出，创建的关系数量等于流式示例中的行数。

写入的关系总是有方向的，即使输入图是无方向的。例如，如果 `a → b` 是 `a` 的 topK，并且对称地 `b → a` 是 `b` 的 topK，这看起来好像写入了一个无方向关系。然而，它们只是独立写入的两个有方向关系。