适用于自管理 Neo4j 数据库的图分析无服务器

此 Jupyter 笔记本托管在此处的 Neo4j 图数据科学客户端 GitHub 仓库中。

本笔记本展示了如何使用 graphdatascience Python 库来创建、管理和使用 GDS 会话。

我们考虑一个关于人物和水果的图，将其作为一个简单示例，展示如何将您的自管理 Neo4j 数据库连接到 GDS 会话、运行算法，并最终将分析结果写回您的 Neo4j 数据库。我们将涵盖所有管理操作：创建、列出和删除。

如果您正在使用 AuraDB，请遵循此示例。

1. 先决条件

本笔记本要求有一个可用的 Neo4j 实例，并且图分析无服务器功能已为您的 Neo4j Aura 项目启用。

您还需要安装 graphdatascience Python 库，版本为 1.15 或更高。

%pip install "graphdatascience>=1.15"

2. Aura API 凭证

管理 GDS 会话的入口点是 GdsSessions 对象，它需要创建Aura API 凭证。

import os

from graphdatascience.session import AuraAPICredentials, GdsSessions

client_id = os.environ["AURA_API_CLIENT_ID"]
client_secret = os.environ["AURA_API_CLIENT_SECRET"]

# If your account is a member of several projects, you must also specify the project ID to use
project_id = os.environ.get("AURA_API_PROJECT_ID", None)

sessions = GdsSessions(api_credentials=AuraAPICredentials(client_id, client_secret, project_id=project_id))

3. 创建新会话

通过调用 sessions.get_or_create() 并传入以下参数来创建新会话：

一个会话名称，通过再次调用 get_or_create 可以重新连接到现有会话。
包含可访问的自管理 Neo4j DBMS 实例的地址、用户名和密码的 DbmsConnectionInfo。
会话内存。
云位置。
一个生存时间 (TTL)，它确保会话在闲置达到设定的时间后自动删除，以避免产生费用。

有关参数的更多详情，请参阅 API 参考文档或手册。

from graphdatascience.session import AlgorithmCategory, CloudLocation, SessionMemory

# Explicitly define the size of the session
memory = SessionMemory.m_8GB

# Estimate the memory needed for the GDS session
memory = sessions.estimate(
    node_count=20,
    relationship_count=50,
    algorithm_categories=[AlgorithmCategory.CENTRALITY, AlgorithmCategory.NODE_EMBEDDING],
)

print(f"Estimated memory: {memory}")

# Specify your cloud location
cloud_location = CloudLocation("gcp", "europe-west1")

# You can find available cloud locations by calling
cloud_locations = sessions.available_cloud_locations()
print(f"Available locations: {cloud_locations}")

import os
from datetime import timedelta

from graphdatascience.session import DbmsConnectionInfo

# Identify the Neo4j DBMS
db_connection = DbmsConnectionInfo(
    uri=os.environ["NEO4J_URI"], username=os.environ["NEO4J_USER"], password=os.environ["NEO4J_PASSWORD"]
)

# Create a GDS session!
gds = sessions.get_or_create(
    # give it a representative name
    session_name="people-and-fruits-sm",
    memory=memory,
    db_connection=db_connection,
    ttl=timedelta(minutes=30),
    cloud_location=cloud_location,
)

4. 列出会话

您可以使用 sessions.list() 来查看每个已创建会话的详细信息。

from pandas import DataFrame

gds_sessions = sessions.list()

# for better visualization
DataFrame(gds_sessions)

5. 添加数据集

我们假设已配置的 Neo4j 数据库实例是空的。您将使用标准 Cypher 添加数据集。

在更真实的场景中，此步骤已经完成，您只需连接到现有数据库即可。

data_query = """
  CREATE
    (dan:Person {name: 'Dan',     age: 18, experience: 63, hipster: 0}),
    (annie:Person {name: 'Annie', age: 12, experience: 5, hipster: 0}),
    (matt:Person {name: 'Matt',   age: 22, experience: 42, hipster: 0}),
    (jeff:Person {name: 'Jeff',   age: 51, experience: 12, hipster: 0}),
    (brie:Person {name: 'Brie',   age: 31, experience: 6, hipster: 0}),
    (elsa:Person {name: 'Elsa',   age: 65, experience: 23, hipster: 1}),
    (john:Person {name: 'John',   age: 4, experience: 100, hipster: 0}),

    (apple:Fruit {name: 'Apple',   tropical: 0, sourness: 0.3, sweetness: 0.6}),
    (banana:Fruit {name: 'Banana', tropical: 1, sourness: 0.1, sweetness: 0.9}),
    (mango:Fruit {name: 'Mango',   tropical: 1, sourness: 0.3, sweetness: 1.0}),
    (plum:Fruit {name: 'Plum',     tropical: 0, sourness: 0.5, sweetness: 0.8})

  CREATE
    (dan)-[:LIKES]->(apple),
    (annie)-[:LIKES]->(banana),
    (matt)-[:LIKES]->(mango),
    (jeff)-[:LIKES]->(mango),
    (brie)-[:LIKES]->(banana),
    (elsa)-[:LIKES]->(plum),
    (john)-[:LIKES]->(plum),

    (dan)-[:KNOWS]->(annie),
    (dan)-[:KNOWS]->(matt),
    (annie)-[:KNOWS]->(matt),
    (annie)-[:KNOWS]->(jeff),
    (annie)-[:KNOWS]->(brie),
    (matt)-[:KNOWS]->(brie),
    (brie)-[:KNOWS]->(elsa),
    (brie)-[:KNOWS]->(jeff),
    (john)-[:KNOWS]->(jeff);
"""

# making sure the database is actually empty
assert gds.run_cypher("MATCH (n) RETURN count(n)").squeeze() == 0, "Database is not empty!"

# let's now write our graph!
gds.run_cypher(data_query)

gds.run_cypher("MATCH (n) RETURN count(n) AS nodeCount")

6. 投影图

将图导入数据库后，您可以将其投影到我们的 GDS 会话中。您可以通过使用 gds.graph.project() 端点来完成。

您使用的远程投影查询选择所有 Person 节点及其 LIKES 关系，以及所有 Fruit 节点及其 LIKES 关系。此外，节点属性也为演示目的而被投影。您可以将这些节点属性用作算法的输入，尽管本笔记本中未这样做。

G, result = gds.graph.project(
    "people-and-fruits",
    """
    CALL {
        MATCH (p1:Person)
        OPTIONAL MATCH (p1)-[r:KNOWS]->(p2:Person)
        RETURN
          p1 AS source, r AS rel, p2 AS target,
          p1 {.age, .experience, .hipster } AS sourceNodeProperties,
          p2 {.age, .experience, .hipster } AS targetNodeProperties
        UNION
        MATCH (f:Fruit)
        OPTIONAL MATCH (f)<-[r:LIKES]-(p:Person)
        RETURN
          p AS source, r AS rel, f AS target,
          p {.age, .experience, .hipster } AS sourceNodeProperties,
          f { .tropical, .sourness, .sweetness } AS targetNodeProperties
    }
    RETURN gds.graph.project.remote(source, target, {
      sourceNodeProperties: sourceNodeProperties,
      targetNodeProperties: targetNodeProperties,
      sourceNodeLabels: labels(source),
      targetNodeLabels: labels(target),
      relationshipType: type(rel)
    })
    """,
)

str(G)

7. 运行算法

您可以使用标准的 GDS Python 客户端 API 在构建的图上运行算法。有关更多示例，请参阅其他教程。

print("Running PageRank ...")
pr_result = gds.pageRank.mutate(G, mutateProperty="pagerank")
print(f"Compute millis: {pr_result['computeMillis']}")
print(f"Node properties written: {pr_result['nodePropertiesWritten']}")
print(f"Centrality distribution: {pr_result['centralityDistribution']}")

print("Running FastRP ...")
frp_result = gds.fastRP.mutate(
    G,
    mutateProperty="fastRP",
    embeddingDimension=8,
    featureProperties=["pagerank"],
    propertyRatio=0.2,
    nodeSelfInfluence=0.2,
)
print(f"Compute millis: {frp_result['computeMillis']}")
# stream back the results
gds.graph.nodeProperties.stream(G, ["pagerank", "fastRP"], separate_property_columns=True, db_node_properties=["name"])

8. 写回 Neo4j

GDS 会话的内存图是从我们指定的 Neo4j 数据库中的数据投影而来的。因此，写回操作会将数据持久化回相同的 Neo4j 数据库。让我们将 PageRank 和 FastRP 算法的结果写回 Neo4j 数据库。

# if this fails once with some error like "unable to retrieve routing table"
# then run it again. this is a transient error with a stale server cache.
gds.graph.nodeProperties.write(G, ["pagerank", "fastRP"])

当然，您也可以只使用 .write 模式。让我们以写入模式运行 Louvain 来展示

gds.louvain.write(G, writeProperty="louvain")

您现在可以使用 gds.run_cypher() 方法来查询更新后的图。请注意，run_cypher() 方法将在 Neo4j 数据库上运行查询。

gds.run_cypher(
    """
    MATCH (p:Person)
    RETURN p.name, p.pagerank AS rank, p.louvain
     ORDER BY rank DESC
    """
)

9. 删除会话

完成分析后，您可以删除会话。您生成的结果已写回我们的 Neo4j 数据库，不会丢失。如果您计算了其他未写回的内容，那些内容将会丢失。

删除会话将释放与其关联的所有资源，并停止产生费用。

# or gds.delete()
sessions.delete(session_name="people-and-fruits-sm")

# let's also make sure the deleted session is truly gone:
sessions.list()

# Lastly, let's clean up the database
gds.run_cypher("MATCH (n:Person|Fruit) DETACH DELETE n")