机器学习管道

此示例是机器学习部分中描述的链接预测管道的简化版本。

创建图

以下 Cypher 查询在 Neo4j 数据库中创建一个小型社交网络图。

CREATE
  (alice:Person {name: 'Alice', age: 38}),
  (michael:Person {name: 'Michael', age: 67}),
  (karin:Person {name: 'Karin', age: 30}),
  (chris:Person {name: 'Chris', age: 52}),
  (will:Person {name: 'Will', age: 6}),
  (mark:Person {name: 'Mark', age: 32}),
  (greg:Person {name: 'Greg', age: 29}),
  (veselin:Person {name: 'Veselin', age: 3}),

  (alice)-[:KNOWS]->(michael),
  (michael)-[:KNOWS]->(karin),
  (michael)-[:KNOWS]->(chris),
  (michael)-[:KNOWS]->(greg),
  (will)-[:KNOWS]->(michael),
  (will)-[:KNOWS]->(chris),
  (mark)-[:KNOWS]->(michael),
  (mark)-[:KNOWS]->(will),
  (greg)-[:KNOWS]->(chris),
  (veselin)-[:KNOWS]->(chris),
  (karin)-[:KNOWS]->(veselin),
  (chris)-[:KNOWS]->(karin)

该图示例如下

下一个查询从 Neo4j 图创建一个名为 friends 的内存图。由于链接预测模型要求图是无向的，因此 :KNOWS 关系的方位被丢弃。

MATCH (source:Person)-[r:KNOWS]->(target:Person)
RETURN gds.graph.project(
  'friends',
  source,
  target,
  {
    sourceNodeProperties: source { .age },
    targetNodeProperties: target { .age },
    relationshipType: 'KNOWS'
  },
  { undirectedRelationshipTypes: ['KNOWS'] }
)

配置管道

您可以使用一系列 Cypher 查询来配置机器学习管道。

创建管道并将其添加到管道目录

CALL gds.beta.pipeline.linkPrediction.create('pipe')

添加链接特征（此处仅为 age）和特征类型（此处为 l2）

CALL gds.beta.pipeline.linkPrediction.addFeature(
  'pipe',
  'l2',
  { nodeProperties: ['age'] }
)

配置训练-测试分割以及交叉验证的折叠数量

CALL gds.beta.pipeline.linkPrediction.configureSplit(
  'pipe',
  {
    testFraction: 0.25,
    trainFraction: 0.6,
    validationFolds: 3
  }
)

添加一个候选模型（此处为未进行额外配置的逻辑回归）
```
CALL gds.beta.pipeline.linkPrediction.addLogisticRegression('pipe')
```

训练模型

配置完成后，管道即可训练模型。训练过程将返回具有指定评估指标的最佳性能模型。

为方便起见，上一节中显示的管道配置已简化；因此，模型的性能预计不会是最好的。有关详细的演练，请参阅链接预测管道页面。

CALL gds.beta.pipeline.linkPrediction.train(
  'friends',  (1)
  {
    pipeline: 'pipe',  (2)
    modelName: 'lp-pipeline-model',  (3)
    targetRelationshipType: 'KNOWS',  (4)
    metrics: ['AUCPR'],  (5)
    randomSeed: 42  (6)
  }
)
YIELD modelInfo
RETURN
  modelInfo.bestParameters AS winningModel,  (7)
  modelInfo.metrics.AUCPR.train.avg AS avgTrainScore,  (8)
  modelInfo.metrics.AUCPR.validation.avg AS avgValidationScore,
  modelInfo.metrics.AUCPR.outerTrain AS outerTrainScore,
  modelInfo.metrics.AUCPR.test AS testScore

1	用于训练的投影图名称。
2	配置的管道名称。
3	要训练的模型名称。
4	用于训练模型的关系名称。
5	用于评估模型的指标（此处为 `AUCPR`）。
6	随机种子仅用于在不同运行中获得相同的结果。
7	训练过程返回的最佳性能模型的参数。
8	训练过程返回的最佳性能模型的评估指标（此处为 `AUCPR`）。

表 1. 结果
获胜模型	平均训练分数	平均验证分数	外部训练分数	测试分数
{batchSize=100, classWeights=[], focusWeight=0.0, learningRate=0.001, maxEpochs=100, methodName="LogisticRegression", minEpochs=1, patience=1, penalty=0.0, tolerance=0.001}	0.5740740741	0.3611111111	0.3784126984	0.3444444444

使用模型进行预测

您可以使用训练好的模型来预测投影图中两个节点之间存在链接的概率。

CALL gds.beta.pipeline.linkPrediction.predict.stream(  (1)
  'friends',  (2)
  {
    modelName: 'lp-pipeline-model',  (3)
    topN: 5  (4)
  }
)
YIELD node1, node2, probability
RETURN
  gds.util.asNode(node1).name AS person1,
  gds.util.asNode(node2).name AS person2,
  probability
ORDER BY probability DESC, person1

1	在 `stream` 模式下运行预测（将预测的链接作为查询结果返回）。
2	用于运行预测的投影图名称。
3	用于预测的模型名称。
4	要输出的最大预测关系数量。

表 2. 结果
人物 1	人物 2	概率
"Karin"	"Greg"	0.4991379664
"Mark"	"Karin"	0.4989714183
"Mark"	"Greg"	0.4986938388
"Will"	"Veselin"	0.4986938388
"Mark"	"Alice"	0.4971949275

下一步

尝试通过使用不同的候选模型、将节点属性添加到特征或配置自动调优来提高训练性能。