K 最近邻

词汇表

有向

有向特征。该算法在有向图上定义明确。

有向

有向特征。该算法忽略图的方向。

有向

有向特征。该算法不在有向图上运行。

无向

无向特征。该算法在无向图上定义明确。

无向

无向特征。该算法忽略图的无向性。

异构节点

异构节点 全面支持。该算法能够区分不同类型的节点。

异构节点

异构节点 允许。该算法无论节点标签如何,都以类似的方式处理所有选定的节点。

异构关系

异构关系 全面支持。该算法能够区分不同类型的关系。

异构关系

异构关系 允许。该算法无论关系类型如何,都以类似的方式处理所有选定的关系。

加权关系

加权特征。该算法支持关系属性作为权重使用,通过 relationshipWeightProperty 配置参数指定。

加权关系

加权特征。该算法将每个关系视为同等重要,忽略任何关系权重的值。

 

kNN 在端到端示例 Jupyter 笔记本中提供

介绍

K 最近邻算法计算图中所有节点对的距离值,并在每个节点及其 k 个最近邻之间创建新的关系。距离是根据节点属性计算的。

该算法的输入是同构图;图中的任何节点标签或关系类型信息都会被忽略。图不需要是连通的,事实上,节点之间现有的关系将被忽略 - 除了随机游走采样(如果使用了初始采样选项)。在每个节点及其 k 个最近邻之间创建新的关系。

K 最近邻算法比较每个节点给定的属性。这些属性最相似的 k 个节点是 k 个最近邻。

初始邻居集是随机选择的,并在多个迭代中进行验证和细化。迭代次数受配置参数 maxIterations 限制。如果邻居列表只发生微小变化,算法可能会提前停止,这可以通过配置参数 deltaThreshold 控制。

具体实现基于魏东等人的 通用相似度度量的高效 k 最近邻图构建。该算法不是将每个节点与其他所有节点进行比较,而是基于以下假设选择可能的邻居:节点的邻居的邻居很可能已经是最近的邻居。该算法的节点数量扩展为准线性,而不是二次方。

此外,该算法仅在每次迭代中比较所有可能邻居的样本,假设最终所有可能的邻居都将被看到。这可以通过配置参数 sampleRate 控制。

  • 有效的采样率必须介于 0(不含)和 1(含)之间。

  • 默认值为 0.5

  • 该参数用于控制准确性和运行时性能之间的权衡。

  • 更高的采样率将提高结果的准确性。

    • 算法也将需要更多内存,并且计算时间更长。

  • 较低的采样率将提高运行时性能。

    • 比较中可能遗漏一些潜在的节点,并且可能不会包含在结果中。

当遇到的邻居与已知最不相似邻居的相似度相等时,随机选择保留哪个节点可以降低某些邻域未被探索的风险。此行为由配置参数 perturbationRate 控制。

算法的输出是节点与其 k 个最近邻居之间的新关系。相似度分数通过关系属性表示。

有关此算法的更多信息,请参见

还可以对生成的相似性对中的源节点和/或目标节点应用过滤。您可以考虑使用 过滤的 K 最近邻 算法来实现此目的。

运行此算法需要足够的可用内存。在运行此算法之前,我们建议您阅读 内存估算

相似度度量

KNN 算法中使用的相似度度量取决于配置的节点属性的类型。KNN 支持标量数值和数字列表。

标量数字

当属性是标量数字时,相似度计算如下

knn scalar similarity
图 1. 一除以一加上绝对差

这将为我们提供 (0, 1] 范围内的数字。

整数列表

当属性是整数列表时,相似度可以使用 Jaccard 相似度或重叠系数来衡量。

Jaccard 相似度
jacard
图 2. 交集大小除以并集大小
重叠系数
overlap
图 3. 交集大小除以最小集大小

这两个指标都提供 [0, 1] 范围内的分数,并且不需要进行归一化。当未指定度量时,Jaccard 相似度用作比较整数列表的默认选项。

浮点数列表

当属性是浮点数列表时,有三种方法可以计算两个节点之间的相似度。

使用的默认度量是余弦相似度。

余弦相似度
cosine
图 4. 向量的点积除以其长度的乘积

请注意,以上公式给出了 [-1, 1] 范围内的分数。通过执行 score = (score + 1) / 2 将分数归一化为 [0, 1] 范围。

另外两个度量包括皮尔逊相关系数和归一化欧几里得相似度。

皮尔逊相关系数
pearson
图 5. 协方差除以标准差的乘积

与上面一样,该公式给出了 [-1, 1] 范围内的分数,同样地被归一化为 [0, 1] 范围。

欧几里得相似度
ed
图 6. 每对元素之间的平方差之和的平方根

此公式的结果是非负值,但不一定限制在 [0, 1] 范围内。为了将数字限制在此范围内并获得相似度分数,我们返回 score = 1 / (1 + distance),即,我们执行与标量值情况相同的归一化。

多个属性

最后,当指定多个属性时,两个邻居的相似度是各个属性相似度的平均值,即每个数字的简单平均值,每个数字都在 [0, 1] 范围内,从而给出同样在 [0, 1] 范围内的总分数。

此平均值的有效性高度依赖于上下文,因此在将它应用于您的数据域时要小心。

节点属性和度量配置

使用 nodeProperties 配置参数指定要使用的节点属性和度量。必须至少指定一个节点属性。

此参数接受以下之一

表 1. nodeProperties 语法

单个属性名称

nodeProperties: 'embedding'

属性键到度量的映射

nodeProperties: {
    embedding: 'COSINE',
    age: 'DEFAULT',
    lotteryNumbers: 'OVERLAP'
}

字符串和/或映射的列表

nodeProperties: [
    {embedding: 'COSINE'},
    'age',
    {lotteryNumbers: 'OVERLAP'}
]

按类型提供的度量有

表 2. 按类型提供的度量
类型 度量

整数列表

JACCARD, OVERLAP

浮点数列表

COSINE, EUCLIDEAN, PEARSON

对于任何属性类型,也可以指定 DEFAULT 来使用默认度量。对于标量数字,只有一个默认度量。

初始邻居采样

算法从为每个节点选择 k 个随机邻居开始。有两种方法可以进行这种随机采样。

均匀

每个节点的前 k 个邻居是从图中所有其他节点中随机均匀选择的。这是进行初始采样的经典方法。这也是算法的默认方法。请注意,此方法实际上并不使用输入图的拓扑结构。

随机游走

从每个节点,我们进行深度偏置随机游走,并选择游走中访问的前 k 个唯一节点作为我们的初始随机邻居。如果在一些内部定义的 O(k) 步数后随机游走,没有访问到 k 个唯一邻居,我们将使用上面描述的均匀方法填充剩余的邻居。随机游走方法利用了输入图的拓扑结构,如果更可能在拓扑上接近的节点之间找到良好的相似度分数,则此方法可能适用。

使用的随机游走偏向深度,这意味着它更有可能选择远离先前访问的节点,而不是返回到该节点或返回到与该节点等距的节点。这种偏差的直觉是,邻居的邻居的后续迭代很可能覆盖每个节点的扩展(拓扑)邻域。

语法

本节介绍在每种执行模式下执行 K 最近邻算法时使用的语法。我们正在描述命名的图语法变体。要了解有关一般语法变体的更多信息,请参见 语法概述

每个模式的 K 最近邻语法
在命名的图上以流模式运行 K 最近邻。
CALL gds.knn.stream(
  graphName: String,
  configuration: Map
) YIELD
  node1: Integer,
  node2: Integer,
  similarity: Float
表 3. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

映射

{}

针对算法特性的配置和/或图过滤。

表 4. 配置
名称 类型 默认值 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名的图。具有给定标签的任何节点都将被包含。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名的图。具有给定类型的任何关系都将被包含。

concurrency

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

可以提供用于更轻松地跟踪算法进度的 ID。

logProgress

布尔值

true

如果禁用,则不会记录进度百分比。

nodeProperties

字符串或映射或字符串/映射列表

n/a

要用于相似度计算的节点属性及其选择的相似度度量。接受单个属性键、属性键到度量的映射,或属性键和/或映射的列表,如上所述。有关详细信息,请参见 节点属性和度量配置

topK

整数

10

为每个节点查找的邻居数量。返回 K 个最近邻。此值不能低于 1。

sampleRate

浮点数

0.5

采样率,用于限制每个节点的比较次数。值必须介于 0(不含)和 1(含)之间。

deltaThreshold

浮点数

0.001

百分比值,用于确定何时提前停止。如果更新次数少于配置的值,则算法停止。值必须介于 0(不含)和 1(含)之间。

maxIterations

整数

100

在该迭代次数后停止算法的硬限制。

randomJoins

整数

10

每个节点在每次迭代中进行的基于随机选择的随机连接新节点邻居的尝试次数。

initialSampler

字符串

"uniform"

用于为每个节点采样前 k 个随机邻居的方法。 "uniform" 和 "randomWalk"(均不区分大小写)都是有效的输入。

randomSeed

整数

n/a

用于控制算法随机性的种子值。请注意,在设置此参数时,concurrency 必须设置为 1。

similarityCutoff

浮点数

0

从 K 个最近邻节点列表中过滤掉相似度低于此阈值的节点。

perturbationRate

浮点数

0

用相似度相等的已遇到邻居替换最不相似已知邻居的概率。

表 5. 结果
名称 类型 描述

node1

整数

第一个节点的节点 ID。

node2

整数

第二个节点的节点 ID。

similarity

浮点数

两个节点的相似度分数。

在命名的图上以统计模式运行 K 最近邻。
CALL gds.knn.stats(
  graphName: String,
  configuration: Map
)
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  nodesCompared: Integer,
  ranIterations: Integer,
  didConverge: Boolean,
  nodePairsConsidered: Integer,
  similarityPairs: Integer,
  similarityDistribution: Map,
  configuration: Map
表 6. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

映射

{}

针对算法特性的配置和/或图过滤。

表 7. 配置
名称 类型 默认值 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名的图。具有给定标签的任何节点都将被包含。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名的图。具有给定类型的任何关系都将被包含。

concurrency

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

可以提供用于更轻松地跟踪算法进度的 ID。

logProgress

布尔值

true

如果禁用,则不会记录进度百分比。

nodeProperties

字符串或映射或字符串/映射列表

n/a

要用于相似度计算的节点属性及其选择的相似度度量。接受单个属性键、属性键到度量的映射,或属性键和/或映射的列表,如上所述。有关详细信息,请参见 节点属性和度量配置

topK

整数

10

为每个节点查找的邻居数量。返回 K 个最近邻。此值不能低于 1。

sampleRate

浮点数

0.5

采样率,用于限制每个节点的比较次数。值必须介于 0(不含)和 1(含)之间。

deltaThreshold

浮点数

0.001

百分比值,用于确定何时提前停止。如果更新次数少于配置的值,则算法停止。值必须介于 0(不含)和 1(含)之间。

maxIterations

整数

100

在该迭代次数后停止算法的硬限制。

randomJoins

整数

10

每个节点在每次迭代中进行的基于随机选择的随机连接新节点邻居的尝试次数。

initialSampler

字符串

"uniform"

用于为每个节点采样前 k 个随机邻居的方法。 "uniform" 和 "randomWalk"(均不区分大小写)都是有效的输入。

randomSeed

整数

n/a

用于控制算法随机性的种子值。请注意,在设置此参数时,concurrency 必须设置为 1。

similarityCutoff

浮点数

0

从 K 个最近邻节点列表中过滤掉相似度低于此阈值的节点。

perturbationRate

浮点数

0

用相似度相等的已遇到邻居替换最不相似已知邻居的概率。

表 8. 结果
名称 类型 描述

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

nodePairsConsidered

整数

相似度计算次数。

preProcessingMillis

整数

预处理数据的毫秒数。

computeMillis

整数

运行算法的毫秒数。

postProcessingMillis

整数

计算相似度值分布统计信息的毫秒数。

nodesCompared

整数

计算了相似度的节点数。

similarityPairs

整数

结果中的相似度数。

similarityDistribution

映射

映射,包含计算出的相似度结果的最小值、最大值、平均值以及 p50、p75、p90、p95、p99 和 p999 百分位数值。

configuration

映射

用于运行算法的配置。

在存储在目录中的图上以变异模式运行 K 最近邻。
CALL gds.knn.mutate(
  graphName: String,
  configuration: Map
)
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  mutateMillis: Integer,
  postProcessingMillis: Integer,
  relationshipsWritten: Integer,
  nodesCompared: Integer,
  ranIterations: Integer,
  didConverge: Boolean,
  nodePairsConsidered: Integer,
  similarityDistribution: Map,
  configuration: Map
表 9. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

映射

{}

针对算法特性的配置和/或图过滤。

表 10. 配置
名称 类型 默认值 可选 描述

mutateRelationshipType

字符串

n/a

用于写入投影图的新关系的关系类型。

mutateProperty

字符串

n/a

GDS 图中写入相似度分数的关系属性。

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名的图。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名的图。

concurrency

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

可以提供用于更轻松地跟踪算法进度的 ID。

nodeProperties

字符串或映射或字符串/映射列表

n/a

要用于相似度计算的节点属性及其选择的相似度度量。接受单个属性键、属性键到度量的映射,或属性键和/或映射的列表,如上所述。有关详细信息,请参见 节点属性和度量配置

topK

整数

10

为每个节点查找的邻居数量。返回 K 个最近邻。此值不能低于 1。

sampleRate

浮点数

0.5

采样率,用于限制每个节点的比较次数。值必须介于 0(不含)和 1(含)之间。

deltaThreshold

浮点数

0.001

百分比值,用于确定何时提前停止。如果更新次数少于配置的值,则算法停止。值必须介于 0(不含)和 1(含)之间。

maxIterations

整数

100

在该迭代次数后停止算法的硬限制。

randomJoins

整数

10

每个节点在每次迭代中进行的基于随机选择的随机连接新节点邻居的尝试次数。

initialSampler

字符串

"uniform"

用于为每个节点采样前 k 个随机邻居的方法。 "uniform" 和 "randomWalk"(均不区分大小写)都是有效的输入。

randomSeed

整数

n/a

用于控制算法随机性的种子值。请注意,在设置此参数时,concurrency 必须设置为 1。

similarityCutoff

浮点数

0

从 K 个最近邻节点列表中过滤掉相似度低于此阈值的节点。

perturbationRate

浮点数

0

用相似度相等的已遇到邻居替换最不相似已知邻居的概率。

表 11. 结果
名称 类型 描述

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

nodePairsConsidered

整数

相似度计算次数。

preProcessingMillis

整数

预处理数据的毫秒数。

computeMillis

整数

运行算法的毫秒数。

mutateMillis

整数

将属性添加到投影图所需的时间(毫秒)。

postProcessingMillis

整数

计算相似度值分布统计信息的毫秒数。

nodesCompared

整数

计算了相似度的节点数。

relationshipsWritten

整数

创建的关系数量。

similarityDistribution

映射

包含计算出的相似性结果的最小值、最大值、平均值、标准差以及 p1、p5、p10、p25、p75、p90、p95、p99、p100 百分位数的映射。

configuration

映射

用于运行算法的配置。

在写入模式下对存储在目录中的图运行 K 最近邻算法。
CALL gds.knn.write(
  graphName: String,
  configuration: Map
)
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  writeMillis: Integer,
  postProcessingMillis: Integer,
  nodesCompared: Integer,
  ranIterations: Integer,
  didConverge: Boolean,
  nodePairsConsidered: Integer,
  relationshipsWritten: Integer,
  similarityDistribution: Map,
  configuration: Map
表 12. 参数
名称 类型 默认值 可选 描述

graphName

字符串

n/a

存储在目录中的图的名称。

configuration

映射

{}

针对算法特性的配置和/或图过滤。

表 13. 配置
名称 类型 默认值 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名的图。具有给定标签的任何节点都将被包含。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名的图。具有给定类型的任何关系都将被包含。

concurrency

整数

4

用于运行算法的并发线程数。

jobId

字符串

内部生成

可以提供用于更轻松地跟踪算法进度的 ID。

logProgress

布尔值

true

如果禁用,则不会记录进度百分比。

writeConcurrency

整数

'concurrency' 的值。

用于将结果写入 Neo4j 的并发线程数。

writeRelationshipType

字符串

n/a

用于在 Neo4j 数据库中持久化计算出的关系的关系类型。

writeProperty

字符串

n/a

Neo4j 数据库中写入相似性分数的关系属性。

nodeProperties

字符串或映射或字符串/映射列表

n/a

要用于相似度计算的节点属性及其选择的相似度度量。接受单个属性键、属性键到度量的映射,或属性键和/或映射的列表,如上所述。有关详细信息,请参见 节点属性和度量配置

topK

整数

10

为每个节点查找的邻居数量。返回 K 个最近邻。此值不能低于 1。

sampleRate

浮点数

0.5

采样率,用于限制每个节点的比较次数。值必须介于 0(不含)和 1(含)之间。

deltaThreshold

浮点数

0.001

百分比值,用于确定何时提前停止。如果更新次数少于配置的值,则算法停止。值必须介于 0(不含)和 1(含)之间。

maxIterations

整数

100

在该迭代次数后停止算法的硬限制。

randomJoins

整数

10

每个节点在每次迭代中进行的基于随机选择的随机连接新节点邻居的尝试次数。

initialSampler

字符串

"uniform"

用于为每个节点采样前 k 个随机邻居的方法。 "uniform" 和 "randomWalk"(均不区分大小写)都是有效的输入。

randomSeed

整数

n/a

用于控制算法随机性的种子值。请注意,在设置此参数时,concurrency 必须设置为 1。

similarityCutoff

浮点数

0

从 K 个最近邻节点列表中过滤掉相似度低于此阈值的节点。

perturbationRate

浮点数

0

用相似度相等的已遇到邻居替换最不相似已知邻居的概率。

表 14. 结果
名称 类型 描述

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

nodePairsConsidered

整数

相似度计算次数。

preProcessingMillis

整数

预处理数据的毫秒数。

computeMillis

整数

运行算法的毫秒数。

writeMillis

整数

将结果数据写回 Neo4j 所需的时间(毫秒)。

postProcessingMillis

整数

计算相似度值分布统计信息的毫秒数。

nodesCompared

整数

计算了相似度的节点数。

relationshipsWritten

整数

创建的关系数量。

similarityDistribution

映射

包含计算出的相似性结果的最小值、最大值、平均值、标准差以及 p1、p5、p10、p25、p75、p90、p95、p99、p100 百分位数的映射。

configuration

映射

用于运行算法的配置。

KNN 算法不读取任何关系,但 relationshipProjectionrelationshipQuery 的值仍在使用,并针对图加载进行尊重。

结果与在命名图上运行写入模式相同,请参见 上面的写入模式语法

要获得运行算法时的确定性结果

  • concurrency 参数必须设置为 1

  • randomSeed 必须显式设置。

示例

以下所有示例都应在空数据库中运行。

这些示例使用 Cypher 投影 作为规范。原生投影将在将来的版本中弃用。

在本节中,我们将展示在具体图上运行 KNN 算法的示例。对于均匀采样器,KNN 随机均匀地采样初始邻居,不考虑图拓扑。这意味着 KNN 可以运行在只有节点而没有关系的图上。考虑以下五个断开的 Person 节点的图。

Visualization of the example graph
CREATE (alice:Person {name: 'Alice', age: 24, lotteryNumbers: [1, 3], embedding: [1.0, 3.0]})
CREATE (bob:Person {name: 'Bob', age: 73, lotteryNumbers: [1, 2, 3], embedding: [2.1, 1.6]})
CREATE (carol:Person {name: 'Carol', age: 24, lotteryNumbers: [3], embedding: [1.5, 3.1]})
CREATE (dave:Person {name: 'Dave', age: 48, lotteryNumbers: [2, 4], embedding: [0.6, 0.2]})
CREATE (eve:Person {name: 'Eve', age: 67, lotteryNumbers: [1, 5], embedding: [1.8, 2.7]});

在本例中,我们想要使用 K 最近邻算法根据年龄或所有提供属性的组合来比较人员。

以下语句将投影图并将其存储在图目录中。
MATCH (p:Person)
RETURN gds.graph.project(
  'myGraph',
  p,
  null,
  {
    sourceNodeProperties: p { .age, .lotteryNumbers, .embedding },
    targetNodeProperties: {}
  }
)

内存估算

首先,我们将使用 estimate 过程估计运行算法的成本。这可以使用任何执行模式完成。在本例中,我们将使用 write 模式。估算算法有助于了解在您的图上运行算法将产生的内存影响。当您稍后在其中一种执行模式下实际运行算法时,系统将执行估算。如果估算显示执行极有可能超过其内存限制,则会禁止执行。有关此方面的更多信息,请参阅 自动估算和执行阻塞

有关 estimate 的更多详细信息,请参阅 内存估算

以下将估计运行算法的内存需求
CALL gds.knn.write.estimate('myGraph', {
  nodeProperties: ['age'],
  writeRelationshipType: 'SIMILAR',
  writeProperty: 'score',
  topK: 1
})
YIELD nodeCount, bytesMin, bytesMax, requiredMemory
表 15. 结果
nodeCount bytesMin bytesMax requiredMemory

5

2224

3280

"[2224 字节 ... 3280 字节]"

stream 执行模式下,算法将返回每个关系的相似性分数。这使我们能够直接检查结果或在 Cypher 中对其进行后处理,而不会产生任何副作用。

有关 stream 模式的更多详细信息,请参阅

以下将运行算法并将结果流化
CALL gds.knn.stream('myGraph', {
    topK: 1,
    nodeProperties: ['age'],
    // The following parameters are set to produce a deterministic result
    randomSeed: 1337,
    concurrency: 1,
    sampleRate: 1.0,
    deltaThreshold: 0.0
})
YIELD node1, node2, similarity
RETURN gds.util.asNode(node1).name AS Person1, gds.util.asNode(node2).name AS Person2, similarity
ORDER BY similarity DESCENDING, Person1, Person2
表 16. 结果
Person1 Person2 similarity

"Alice"

"Carol"

1.0

"Carol"

"Alice"

1.0

"Bob"

"Eve"

0.14285714285714285

"Eve"

"Bob"

0.14285714285714285

"Dave"

"Eve"

0.05

我们对大多数参数使用过程配置参数的默认值。randomSeedconcurrency 设置为在每次调用时产生相同的结果。topK 参数设置为 1,以仅返回每个节点的单个最近邻。请注意,Dave 和 Eve 之间的相似性非常低。将 similarityCutoff 参数设置为 0.10 将过滤掉它们之间的关系,将其从结果中删除。

统计数据

stats 执行模式下,算法返回包含算法结果摘要的单行。此执行模式没有任何副作用。通过检查 computeMillis 返回项,它可用于评估算法性能。在以下示例中,我们将省略返回时间。可以在 语法部分 中找到该过程的完整签名。

有关 stats 模式的更多详细信息,请参阅 统计数据

以下将运行算法并以统计和测量值的表格形式返回结果
CALL gds.knn.stats('myGraph', {topK: 1, concurrency: 1, randomSeed: 42, nodeProperties: ['age']})
YIELD nodesCompared, similarityPairs
表 17. 结果
nodesCompared similarityPairs

5

5

变异

mutate 执行模式扩展了 stats 模式,并带有一个重要的副作用:使用新的关系属性更新命名图,该属性包含该关系的相似性分数。新属性的名称使用必需的配置参数 mutateProperty 指定。结果是一个单行摘要,类似于 stats,但有一些额外的指标。当多个算法一起使用时,mutate 模式特别有用。

有关 mutate 模式的更多详细信息,请参阅 变异

以下将运行算法并将结果写回内存中的图
CALL gds.knn.mutate('myGraph', {
    mutateRelationshipType: 'SIMILAR',
    mutateProperty: 'score',
    topK: 1,
    randomSeed: 42,
    concurrency: 1,
    nodeProperties: ['age']
})
YIELD nodesCompared, relationshipsWritten
表 18. 结果
nodesCompared relationshipsWritten

5

5

从结果中可以看出,创建的关系数量等于流化示例中的行数。

变异产生的关系始终是定向的,即使输入图是无向的也是如此。例如,如果 a → ba 的 topK,并且对称地 b → ab 的 topK,则看起来似乎生成了一个无向关系。但是,它们只是两个独立产生的定向关系。

写入

write 执行模式扩展了 stats 模式,并带有一个重要的副作用:对于每对节点,我们都会创建一个具有相似性分数作为属性的关系,并将其写入 Neo4j 数据库。新关系的类型使用必需的配置参数 writeRelationshipType 指定。每个新关系都存储其所代表的两个节点之间的相似性分数。关系属性键使用必需的配置参数 writeProperty 设置。结果是一个单行摘要,类似于 stats,但有一些额外的指标。

有关 write 模式的更多详细信息,请参阅 写入

以下将运行算法并将结果写回
CALL gds.knn.write('myGraph', {
    writeRelationshipType: 'SIMILAR',
    writeProperty: 'score',
    topK: 1,
    randomSeed: 42,
    concurrency: 1,
    nodeProperties: ['age']
})
YIELD nodesCompared, relationshipsWritten
表 19. 结果
nodesCompared relationshipsWritten

5

5

从结果中可以看出,创建的关系数量等于流化示例中的行数。

写入的关系始终是定向的,即使输入图是无向的也是如此。例如,如果 a → ba 的 topK,并且对称地 b → ab 的 topK,则看起来似乎生成了一个无向关系。但是,它们只是两个独立产生的定向关系。

使用多个属性进行计算

如果我们想要根据多个指标计算相似性,我们可以分别计算每个属性的相似性,然后取它们的平均值。例如,除了年龄属性之外,我们还可以使用归一化欧几里得相似性度量来表示嵌入属性,并使用重叠度量来表示彩票号码属性。

以下展示了使用多个属性来计算相似性和流化结果的示例
CALL gds.knn.stream('myGraph', {
    topK: 1,
    nodeProperties: [
        {embedding: "EUCLIDEAN"},
        'age',
        {lotteryNumbers: "OVERLAP"}
    ],
    // The following parameters are set to produce a deterministic result
    randomSeed: 1337,
    concurrency: 1,
    sampleRate: 1.0,
    deltaThreshold: 0.0
})
YIELD node1, node2, similarity
RETURN gds.util.asNode(node1).name AS Person1, gds.util.asNode(node2).name AS Person2, similarity
ORDER BY similarity DESCENDING, Person1, Person2
表 20. 结果
Person1 Person2 similarity

"Alice"

"Carol"

0.8874315534

"Carol"

"Alice"

0.8874315534

"Bob"

"Carol"

0.4674429487

"Eve"

"Bob"

0.3700361866

"Dave"

"Bob"

0.2887113179

请注意,查询中的两个不同映射可以合并为单个映射。