图分析入门
总的来说,图在处理关系至关重要的问题时非常强大。在这种背景下,使用图查询 (Cypher) 使我们能够在知道要寻找什么时回答具体问题,例如:
-
通过使用交易数据查找欺诈者和受害者,
-
然后进一步将这种关系扩展到相关的产品目录以提出建议,
-
并从那里将其与流程流集成,以形成其数字孪生以及供应链信息。
因此,通过定义上述领域之间的关系,我们可以为诸如客户360、欺诈检测、产品推荐、数字孪生、供应链等用例增加巨大价值。
话虽如此,除了具体的定向查询之外,如果我们想深入分析此类数据以回答一般性问题,例如查找社区或找出通常重要的数据,该怎么办?
对于此类用例,图数据科学库 (GDS) 就派上用场了,因为它提供了许多有用的算法,使我们能够及时完成一些复杂的事情。
无监督算法
例如,如果您想了解什么很重要?那么,GDS 拥有 50 多种(无监督学习)算法,可以为您提供各种示例查询的答案,如下所示:
-
哪些节点最重要?
-
哪些节点聚集在一起?
-
哪些节点最相似?
-
哪些节点最不寻常?
或者
-
聚类在哪里?
-
我的图的哪些部分彼此连接更紧密?
-
哪些部分可能连接在一起?
-
哪些模式很常见?
-
通过嵌入寻找关联和低维表示。
总的来说,无监督 GDS 算法使我们能够发现诸如以下模式:
-
中心性计算 — 查找网络中对图至关重要且位于中心的实体,
-
相似性算法 — 实体之间的相似性(基于属性和连接)
-
路径寻找算法 — 到某物的最短路径
-
社区检测算法 — 存在哪些社区
-
启发式链接预测 - 基于一组规则预测关系
监督算法与机器学习
通常情况下,您希望利用图数据根据过去的数据对未来进行预测,例如打标签(即潜在欺诈者)或推荐(即流失客户)。
在这种情况下,您可以使用图嵌入来创建图的数值/表格表示,然后将其输入到机器学习模型中,从而简化此类任务。更重要的是,我们可以进一步利用特征提取算法来丰富训练数据(以及模型),从而持续提高我们预测的准确性。
最终,来自数据库内图数据的嵌入式训练数据具有优势,即数据无需从外部源移动,并且此类任务可以更快、更轻松地完成。
本页是否有帮助?