训练管道
此功能处于 Beta 阶段。有关功能阶段的更多信息,请参阅API 阶段。
训练模式 gds.beta.pipeline.nodeClassification.train
负责数据拆分、特征提取、模型选择、训练以及存储模型以备将来使用。运行此模式会生成一个 NodeClassification
类型的分类模型,该模型随后会存储在模型目录中。该分类模型可以应用于一个可能不同的图,以对节点进行分类。
更具体地说,训练过程如下:
-
在图上应用根据添加节点属性添加的节点属性步骤。每个步骤的图过滤器包括
contextNodeLabels + targetNodeLabels
和contextRelationships + relationshipTypes
。 -
将
targetNodeLabels
过滤器应用于图。 -
选择将用作特征的节点属性,具体如添加特征中所述。
-
将输入图分为两部分:训练图和测试图。这在配置节点拆分中进行了描述。这些图是内部管理的,仅在训练期间存在。
-
使用分层 k 折交叉验证拆分训练图中的节点。折叠数
k
可以按照配置节点拆分中的描述进行配置。 -
根据首要指标的最高平均分数选择性能最佳的模型。
-
在整个训练图上重新训练获胜模型。
-
评估获胜模型在整个训练图和测试图上的性能。
-
在整个原始图上重新训练获胜模型。
-
在模型目录中注册获胜模型。
以上步骤逻辑上描述了该过程的作用。实际步骤及其在实现中的顺序可能有所不同。 |
一个步骤只能使用输入图中已存在的节点属性,或由之前添加的步骤生成的节点属性。 |
不支持在同一图上并行执行同一管道。 |
指标
Neo4j GDS 库中的节点分类模型支持以下评估指标:
-
全局指标
-
F1_WEIGHTED
-
F1_MACRO
-
ACCURACY
-
OUT_OF_BAG_ERROR
(仅适用于随机森林,且仅提供验证和测试分数)
-
-
按类指标
-
F1(class=<number>)
或F1(class=*)
-
PRECISION(class=<number>)
或PRECISION(class=*)
-
RECALL(class=<number>)
或RECALL(class=*)
-
ACCURACY(class=<number>)
或ACCURACY(class=*)
-
*
是一种语法糖,用于报告图中每个类的指标。当使用按类指标时,报告的指标会包含诸如 ACCURACY_class_1
之类的键。
训练期间可以指定多个指标,但只有第一个指定的(即 primary
指标)用于评估,所有指标的结果都存在于训练结果中。主指标不能是 *
扩展,因为扩展后的指标中哪个应作为 primary
指标存在歧义。
OUT_OF_BAG_ERROR
仅针对随机森林模型计算,并评估为多数投票的准确性,其中对于每个示例,仅考虑在训练期间未使用该示例的树。每棵树使用的训练集比例由配置参数 numberOfSamplesRatio
控制。在交叉验证阶段评估时,OUT_OF_BAG_ERROR
作为验证分数报告。如果随机森林模型获胜,则会根据在整个训练集上重新训练模型的结果,将其作为测试分数报告。
语法
CALL gds.beta.pipeline.nodeClassification.train(
graphName: String,
configuration: Map
) YIELD
trainMillis: Integer,
modelInfo: Map,
modelSelectionStats: Map,
configuration: Map
名称 | 类型 | 默认值 | 可选 | 描述 |
---|---|---|---|---|
graphName |
字符串 |
|
否 |
存储在目录中的图的名称。 |
configuration |
映射 |
|
是 |
算法特定配置和/或图过滤。 |
名称 | 类型 | 默认值 | 可选 | 描述 |
---|---|---|---|---|
pipeline |
字符串 |
|
否 |
要执行的管道名称。 |
targetNodeLabels |
字符串列表 |
|
是 |
使用给定的节点标签过滤命名图,以获取用于训练和评估的节点。 |
字符串列表 |
|
是 |
使用给定的关系类型过滤命名图。 |
|
整数 |
|
是 |
用于运行算法的并发线程数。 |
|
字符串 |
|
是 |
一个可提供的 ID,用于更轻松地跟踪算法进度。 |
|
布尔值 |
|
是 |
如果禁用,则不会记录进度百分比。 |
|
targetProperty |
字符串 |
|
否 |
节点的类别。必须是整数类型。 |
metrics |
字符串列表 |
|
否 |
用于评估模型的指标。 |
randomSeed |
整数 |
|
是 |
训练期间使用的随机数生成器的种子。 |
modelName |
字符串 |
|
否 |
要训练的模型名称,该名称必须在模型目录中不存在。 |
storeModelToDisk |
布尔值 |
|
是 |
训练后自动将模型存储到磁盘。 |
名称 | 类型 | 描述 |
---|---|---|
trainMillis |
整数 |
训练使用的毫秒数。 |
modelInfo |
映射 |
关于训练和获胜模型的信息。 |
modelSelectionStats |
映射 |
所有模型候选者的评估指标统计数据。 |
configuration |
映射 |
训练过程使用的配置。 |
modelInfo
也可以稍后通过使用模型列表过程来检索。modelInfo
返回字段包含以下算法特定的子字段:
名称 | 类型 | 描述 |
---|---|---|
bestParameters |
映射 |
根据主要指标在验证折叠上平均表现最佳的模型参数。 |
modelCandidates |
列表 |
映射列表,每个映射包含一个模型候选者的信息。此信息包括候选者参数、训练统计和验证统计。 |
bestTrial |
整数 |
生成最佳模型的试验。第一个试验编号为 1。 |
名称 | 类型 | 描述 |
---|---|---|
modelName |
字符串 |
训练模型的名称。 |
modelType |
字符串 |
训练模型的类型。 |
classes |
整数列表 |
类别 ID 的排序列表,这些 ID 是 |
bestParameters |
映射 |
根据主要指标在验证折叠上平均表现最佳的模型参数。 |
metrics |
映射 |
从指标描述到获胜模型在数据子集上的评估指标的映射,详见下文。 |
nodePropertySteps |
映射列表 |
在管道内生成节点属性的算法。 |
featureProperties |
字符串列表 |
选作管道模型输入特征的节点属性。 |
modelInfo
的结构是
{ bestParameters: Map, (1) nodePropertySteps: List of Map, featureProperties: List of String, classes: List of Integer, (2) metrics: { (3) <METRIC_NAME>: { (4) test: Float, (5) outerTrain: Float, (6) train: { (7) avg: Float, max: Float, min: Float, }, validation: { (8) avg: Float, max: Float, min: Float, params: Map } } } }
1 | 最佳评分模型候选配置。 |
2 | 类别 ID 的排序列表,这些 ID 是 targetProperty 在整个图中的唯一值。 |
3 | metrics 映射包含每个指标描述的条目,以及该指标的相应结果。 |
4 | 过程中配置指定的指标名称,例如 F1_MACRO 或 RECALL(class=4) 。 |
5 | 获胜模型在测试集上评估的数值。 |
6 | 获胜模型在外部训练集上评估的数值。 |
7 | train 条目总结了 train 集上的指标结果。 |
8 | validation 条目总结了 validation 集上的指标结果。 |
在 (5)-(7) 中,如果指标是 |
除了过程产生的数据之外,在过程进行过程中,还有大量关于训练的信息被发送到 Neo4j 数据库的日志中。 例如,每个模型候选者的性能如何会以 某些信息仅以 |
示例
以下所有示例都应在空数据库中运行。 这些示例通常使用Cypher 投影。原生投影将在未来版本中弃用。 |
在本节中,我们将展示在具体图上运行节点分类训练管道的示例。目的是说明结果的外观,并提供如何在实际设置中使用模型的指南。我们将在一个由少量代表房屋的节点组成的小图上进行此操作。这是一个多类分类的示例,class
节点属性的离散值决定了类的数量,在本例中为三个(0、1 和 2)。示例图如下所示:
CREATE
(gold:House {color: 'Gold', sizePerStory: [15.5, 23.6, 33.1], class: 0}),
(red:House {color: 'Red', sizePerStory: [15.5, 23.6, 100.0], class: 0}),
(blue:House {color: 'Blue', sizePerStory: [11.3, 35.1, 22.0], class: 0}),
(green:House {color: 'Green', sizePerStory: [23.2, 55.1, 0.0], class: 1}),
(gray:House {color: 'Gray', sizePerStory: [34.3, 24.0, 0.0], class: 1}),
(black:House {color: 'Black', sizePerStory: [71.66, 55.0, 0.0], class: 1}),
(white:House {color: 'White', sizePerStory: [11.1, 111.0, 0.0], class: 1}),
(teal:House {color: 'Teal', sizePerStory: [80.8, 0.0, 0.0], class: 2}),
(beige:House {color: 'Beige', sizePerStory: [106.2, 0.0, 0.0], class: 2}),
(magenta:House {color: 'Magenta', sizePerStory: [99.9, 0.0, 0.0], class: 2}),
(purple:House {color: 'Purple', sizePerStory: [56.5, 0.0, 0.0], class: 2}),
(pink:UnknownHouse {color: 'Pink', sizePerStory: [23.2, 55.1, 56.1]}),
(tan:UnknownHouse {color: 'Tan', sizePerStory: [22.32, 102.0, 0.0]}),
(yellow:UnknownHouse {color: 'Yellow', sizePerStory: [39.0, 0.0, 0.0]}),
// richer context
(schiele:Painter {name: 'Schiele'}),
(picasso:Painter {name: 'Picasso'}),
(kahlo:Painter {name: 'Kahlo'}),
(schiele)-[:PAINTED]->(gold),
(schiele)-[:PAINTED]->(red),
(schiele)-[:PAINTED]->(blue),
(picasso)-[:PAINTED]->(green),
(picasso)-[:PAINTED]->(gray),
(picasso)-[:PAINTED]->(black),
(picasso)-[:PAINTED]->(white),
(kahlo)-[:PAINTED]->(teal),
(kahlo)-[:PAINTED]->(beige),
(kahlo)-[:PAINTED]->(magenta),
(kahlo)-[:PAINTED]->(purple),
(schiele)-[:PAINTED]->(pink),
(schiele)-[:PAINTED]->(tan),
(kahlo)-[:PAINTED]->(yellow);
有了 Neo4j 中的图,我们现在可以将其投影到图目录中,为管道执行做准备。我们使用 Cypher 投影,目标是 House
和 UnknownHouse
标签。我们还将投影 sizeOfStory
属性用作模型特征,并投影 class
属性用作目标特征。
MATCH (house:House|UnknownHouse)
RETURN gds.graph.project(
'myGraph',
house,
null,
{
sourceNodeLabels: labels(house),
targetNodeLabels: [],
sourceNodeProperties: house { .sizePerStory, .class },
targetNodeProperties: {}
}
)
内存估算
首先,我们将使用 estimate
过程来估算运行算法的成本。这可以通过任何执行模式完成。在此示例中,我们将使用 train
模式。估算算法有助于了解在图上运行算法对内存的影响。当您稍后实际以其中一种执行模式运行算法时,系统将执行估算。如果估算显示执行极有可能超出其内存限制,则将禁止执行。要了解更多信息,请参阅自动估算和执行阻止。
有关 estimate
的更多详细信息,请参阅内存估算。
CALL gds.beta.pipeline.nodeClassification.train.estimate('myGraph', {
pipeline: 'pipe',
targetNodeLabels: ['House'],
modelName: 'nc-model',
targetProperty: 'class',
randomSeed: 2,
metrics: [ 'ACCURACY' ]
})
YIELD requiredMemory
requiredMemory |
---|
"[1264 KiB ... 1337 KiB]" |
如果节点属性步骤没有实现估算,则该步骤将在估算中被忽略。 |
训练
在以下示例中,我们将演示在此图上运行节点分类训练管道。我们将训练一个模型,根据房屋的 sizePerStory
属性预测其所属的类别。
CALL gds.beta.pipeline.nodeClassification.train('myGraph', {
pipeline: 'pipe',
targetNodeLabels: ['House'],
modelName: 'nc-pipeline-model',
targetProperty: 'class',
randomSeed: 1337,
metrics: ['ACCURACY', 'OUT_OF_BAG_ERROR']
}) YIELD modelInfo, modelSelectionStats
RETURN
modelInfo.bestParameters AS winningModel,
modelInfo.metrics.ACCURACY.train.avg AS avgTrainScore,
modelInfo.metrics.ACCURACY.outerTrain AS outerTrainScore,
modelInfo.metrics.ACCURACY.test AS testScore,
[cand IN modelSelectionStats.modelCandidates | cand.metrics.ACCURACY.validation.avg] AS validationScores
winningModel | avgTrainScore | outerTrainScore | testScore | validationScores |
---|---|---|---|---|
{batchSize=100, classWeights=[], focusWeight=0.0, learningRate=0.001, maxEpochs=500, methodName="LogisticRegression", minEpochs=1, patience=1, penalty=5.881039654, tolerance=0.001} |
1.0 |
1.0 |
1.0 |
[0.8, 0.0, 0.5, 0.9, 0.8] |
在这里,我们可以观察到,惩罚项为 5.881
的模型候选在训练阶段表现最佳,在训练图和测试图上的 ACCURACY
分数均为 1。这个模型是自动调优发现的。这表明该模型对训练图的反应非常好,并且能够很好地泛化到未见过的数据。请注意,这只是一个非常小图上的玩具示例。为了获得更高的测试分数,我们可能需要使用更好的特征、更大的图或不同的模型配置。
为节点属性步骤提供更丰富的上下文
在上面的例子中,我们投影了一个不带关系的 House 子图,并将其用于训练和测试。原始图中的许多信息并未被使用。我们可能希望利用更多的节点和关系类型来生成节点属性(和链接特征),并调查它是否能改善节点分类。我们可以通过在添加节点属性步骤时传入 contextNodeLabels
和 contextRelationshipTypes
来实现这一点。
以下语句将使用 Cypher 投影投影一个包含房屋及其画家信息的图,并将其存储在图目录中,名称为“paintingGraph”。
MATCH (house:House)
OPTIONAL MATCH (painter:Painter)-[r:PAINTED]->(house:House)
RETURN gds.graph.project(
'paintingGraph',
painter,
house,
{
sourceNodeLabels: ['Painter'],
targetNodeLabels: ['House'],
sourceNodeProperties: {},
targetNodeProperties: house { .class },
relationshipType: 'PAINTED'
},
{ undirectedRelationshipTypes: ['PAINTED'] }
)
我们仍然训练一个模型来预测每栋房屋的类别,但除了 House
之外,还使用 Painter
和 PAINTED
作为上下文来生成利用完整图结构的特征。然而,在特征生成之后,只有 House
节点被视为训练和评估实例,因此只有 House
节点需要具有目标属性 class
。
首先,我们创建一个新的管道。
CALL gds.beta.pipeline.nodeClassification.create('pipe-with-context')
其次,我们添加一个节点属性步骤(在本例中是节点嵌入),其中 Painter
作为 contextNodeLabels。
CALL gds.beta.pipeline.nodeClassification.addNodeProperty('pipe-with-context', 'fastRP', {
embeddingDimension: 64,
iterationWeights: [0, 1],
mutateProperty:'embedding',
contextNodeLabels: ['Painter']
})
我们将嵌入作为模型的特征。
CALL gds.beta.pipeline.nodeClassification.selectFeatures('pipe-with-context', ['embedding'])
我们通过添加一个逻辑回归模型候选来完成管道设置。
CALL gds.beta.pipeline.nodeClassification.addLogisticRegression('pipe-with-context')
我们现在已准备好调用新创建管道的训练。
CALL gds.beta.pipeline.nodeClassification.train('paintingGraph', {
pipeline: 'pipe-with-context',
targetNodeLabels: ['House'],
modelName: 'nc-pipeline-model-contextual',
targetProperty: 'class',
randomSeed: 1337,
metrics: ['ACCURACY']
}) YIELD modelInfo, modelSelectionStats
RETURN
modelInfo.bestParameters AS winningModel,
modelInfo.metrics.ACCURACY.train.avg AS avgTrainScore,
modelInfo.metrics.ACCURACY.outerTrain AS outerTrainScore,
modelInfo.metrics.ACCURACY.test AS testScore,
[cand IN modelSelectionStats.modelCandidates | cand.metrics.ACCURACY.validation.avg] AS validationScores
winningModel | avgTrainScore | outerTrainScore | testScore | validationScores |
---|---|---|---|---|
{batchSize=100, classWeights=[], focusWeight=0.0, learningRate=0.001, maxEpochs=100, methodName="LogisticRegression", minEpochs=1, patience=1, penalty=0.0, tolerance=0.001} |
1.0 |
1.0 |
1.0 |
[1.0] |
正如我们所见,结果表明画家信息足以完美地对房屋进行分类。这种变化是由于嵌入考虑了更多的上下文信息。虽然这只是一个玩具示例,但额外的上下文有时可以为管道步骤提供有价值的信息,从而带来更好的性能。