常见用法 GDS 库的使用模式通常分为两个阶段:开发和生产。 开发阶段 开发阶段的目标是建立一个包含有用算法和机器学习管道的流程。此阶段涉及配置系统、定义图投影、选择适当的算法以及运行机器学习实验。通常会利用库的内存估算功能。这使您能够成功地配置系统以处理要处理的数据量。需要注意三种资源:投影的图、算法数据结构和机器学习设置。 机器学习管道 使用 Neo4j 图数据科学开发成功的机器学习管道通常涉及以下步骤 选择训练方法 选择算法以生成图特征 选择嵌入算法以生成节点嵌入 调整训练方法的参数 调整嵌入算法的参数 配置管道训练参数 使用图抽样在数据子集上训练模型候选者 生产阶段 在生产阶段,系统被配置为成功且可靠地运行所需的算法和管道。操作顺序通常是以下之一 投影一个图 → 在投影上运行一个或多个算法 → 使用结果 投影一个图 → 配置一个机器学习管道 → 训练一个机器学习模型 投影一个图 → 使用先前训练的机器学习模型计算预测 一般考虑事项 下图展示了 GDS 库标准操作的概述 在此图中,机器学习管道包含在算法类别中。 GDS 库在系统资源方面贪婪地运行其过程。这意味着每个过程将尝试使用 尽可能多的内存(参见 内存估算) 尽可能多的 CPU 内核(不超过其配置的 concurrency 运行限制) 并发运行的过程共享托管 DBMS 的系统资源,因此可能会影响彼此的性能。要获取系统状态的概述,您可以使用 系统监控程序。 有关 GDS 中核心操作的更多详细信息,请参阅相应的章节 图管理 投影图 运行算法 机器学习管道 内存估算