常用用法 GDS 库的使用模式通常分为两个阶段:开发和生产。 开发阶段 开发阶段的目标是建立一个包含有用算法和机器学习管道的工作流程。此阶段涉及配置系统、定义图投影、选择适当的算法以及运行机器学习实验。通常会利用库的内存估算功能。这使您能够成功配置系统以处理要处理的数据量。需要记住三种资源:投影图、算法数据结构和机器学习设置。 机器学习管道 使用 Neo4j 图数据科学开发成功的机器学习管道通常涉及尝试以下步骤: 选择训练方法 选择算法以生成图特征 选择嵌入算法以生成节点嵌入 调整训练方法参数 调整嵌入算法参数 配置管道训练参数 使用图采样在数据子集上训练模型候选 生产阶段 在生产阶段,系统被配置为成功可靠地运行所需的算法和管道。操作顺序通常是以下之一: 投影图 → 在投影上运行一个或多个算法 → 消费结果 投影图 → 配置机器学习管道 → 训练机器学习模型 投影图 → 使用预先训练的机器学习模型计算预测 一般注意事项 下图展示了 GDS 库标准操作的概览 在此图中,机器学习管道包含在算法类别中。 GDS 库在系统资源方面会贪婪地运行其过程。这意味着每个过程都会尝试使用: 所需内存(请参阅内存估算) 所需 CPU 核心(不超过配置的concurrency限制) 同时运行的过程共享托管 DBMS 的系统资源,因此可能会相互影响性能。要获取系统状态的概览,您可以使用系统监控程序。 有关 GDS 核心操作的更多详细信息,请参阅相应章节 图管理 图投影 运行算法 机器学习管道 内存估算