Pinecone

以下是所有可用 Pinecone 过程的列表

名称 描述

apoc.vectordb.pinecone.createCollection(hostOrKey, index, similarity, size, $config)

创建一个索引,索引名称在第二个参数中指定,并具有指定的 similaritysize。默认端点为 <hostOrKey param>/indexes

apoc.vectordb.pinecone.deleteCollection(hostOrKey, index, $config)

删除第二个参数中指定名称的索引。默认端点为 <hostOrKey param>/indexes/<collection param>

apoc.vectordb.pinecone.upsert(hostOrKey, index, vectors, $config)

在第二个参数中指定名称的索引中更新向量 [{id: 'id', vector: '<vectorDb>', medatada: '<metadata>'}]. 默认端点为 <hostOrKey param>/vectors/upsert

apoc.vectordb.pinecone.delete(hostOrKey, index, ids, $config)

删除指定 ids 的向量。默认端点为 <hostOrKey param>/indexes/<collection param>

apoc.vectordb.pinecone.get(hostOrKey, index, ids, $config)

获取指定 ids 的向量。默认端点为 <hostOrKey param>/vectors/fetch

apoc.vectordb.pinecone.getAndUpdate(hostOrKey, index, ids, $config)

获取指定 ids 的向量,并可选地创建/更新 neo4j 实体。默认端点为 <hostOrKey param>/vectors/fetch

apoc.vectordb.pinecone.query(hostOrKey, index, vector, filter, limit, $config)

检索与定义的 vector 最接近的向量,limit 的结果,在第二个参数中指定名称的索引中。默认端点为 <hostOrKey param>/query

apoc.vectordb.pinecone.queryAndUpdate(hostOrKey, index, vector, filter, limit, $config)

检索与定义的 vector 最接近的向量,limit 的结果,在第二个参数中指定名称的索引中,并可选地创建/更新 neo4j 实体。默认端点为 <hostOrKey param>/query

其中第一个参数可以是 apoc 配置中定义的密钥 apoc.pinecone.<key>.host=myHost

这些过程创建/删除/处理索引,而不是像其他 vectordb 过程那样的集合,因为在 Pinecone 中,集合是索引的静态且不可查询的副本。

无论如何,创建/删除索引过程被命名为 .createCollection.deleteCollection,以与其他过程保持一致。

默认的 hostOrKey"https://api.pinecone.io",因此通常对于 createCollectiondeleteCollection 过程可以为 null,而对于其他过程则等于主机名,即 Pinecone 仪表板中指示的主机名。

pinecone index

示例

以下示例假设我们要创建一个名为 test-index 的索引并对其进行管理。

创建一个索引(它利用了 此 API
CALL apoc.vectordb.pinecone.createCollection(null, 'test-index', 'cosine', 4, {<optional config>})
删除一个索引(它利用了 此 API
CALL apoc.vectordb.pinecone.deleteCollection(null, 'test-index', {<optional config>})
更新向量(它利用了 此 API
CALL apoc.vectordb.pinecone.upsert('https://test-index-ilx67g5.svc.aped-4627-b74a.pinecone.io',
  'test-index',
  [
    {id: '1', vector: [0.05, 0.61, 0.76, 0.74], metadata: {city: "Berlin", foo: "one"}},
    {id: '2', vector: [0.19, 0.81, 0.75, 0.11], metadata: {city: "London", foo: "two"}}
  ],
  {<optional config>})
获取向量(它利用了 此 API
CALL apoc.vectordb.pinecone.get($host, 'test-index', [1,2], {<optional config>})
表 1. 示例结果
分数 元数据 id 向量 文本 实体 错误

{city: "Berlin", foo: "one"}

{city: "Berlin", foo: "two"}

使用{allResults: true}获取向量
CALL apoc.vectordb.pinecone.get($host, 'test-index', ['1','2'], {allResults: true, <optional config>})
表 2. 示例结果
分数 元数据 id 向量 文本 实体 错误

{city: "Berlin", foo: "one"}

1

[…​]

{city: "Berlin", foo: "two"}

2

[…​]

查询向量(它利用了此 API
CALL apoc.vectordb.pinecone.query($host,
    'test-index',
    [0.2, 0.1, 0.9, 0.7],
    { city: { `$eq`: "London" } },
    5,
    {allResults: true, <optional config>})
表 3. 示例结果
分数 元数据 id 向量 文本 实体 错误

1,

{city: "Berlin", foo: "one"}

1

[…​]

0.1

{city: "Berlin", foo: "two"}

2

[…​]

我们可以定义一个映射,通过利用向量元数据来自动创建一个或多个节点和关系。

例如,如果我们使用上述 upsert 过程创建了两个向量,我们可以填充一些现有的节点(例如 (:Test {myId: 'one'})(:Test {myId: 'two'})

CALL apoc.vectordb.pinecone.queryAndUpdate($host, 'test-index',
    [0.2, 0.1, 0.9, 0.7],
    {},
    5,
    { mapping: {
            embeddingKey: "vect",
            nodeLabel: "Test",
            entityKey: "myId",
            metadataKey: "foo"
        }
    })

它将填充两个节点,如下所示:(:Test {myId: 'one', city: 'Berlin', vect: [vector1]})(:Test {myId: 'two', city: 'London', vect: [vector2]}),这些将在 entity 列结果中返回。

我们还可以将映射配置 mode 设置为 CREATE_IF_MISSING(如果不存在则创建节点),READ_ONLY(搜索节点/关系,不进行更新)或 UPDATE_EXISTING(默认行为)

CALL apoc.vectordb.pinecone.queryAndUpdate($host, 'test-index',
    [0.2, 0.1, 0.9, 0.7],
    {},
    5,
    { mapping: {
            mode: "CREATE_IF_MISSING",
            embeddingKey: "vect",
            nodeLabel: "Test",
            entityKey: "myId",
            metadataKey: "foo"
        }
    })

它将创建如上所示的两个新节点。

或者,我们可以填充现有的关系(例如 (:Start)-[:TEST {myId: 'one'}]→(:End)(:Start)-[:TEST {myId: 'two'}]→(:End)

CALL apoc.vectordb.pinecone.queryAndUpdate($host, 'test-index',
    [0.2, 0.1, 0.9, 0.7],
    {},
    5,
    { mapping: {
            embeddingKey: "vect",
            relType: "TEST",
            entityKey: "myId",
            metadataKey: "foo"
        }
    })

它将填充两个关系,如下所示:()-[:TEST {myId: 'one', city: 'Berlin', vect: [vector1]}]-()()-[:TEST {myId: 'two', city: 'London', vect: [vector2]}]-(),这些将在 entity 列结果中返回。

我们还可以将映射用于 apoc.vectordb.pinecone.query 过程,以搜索匹配标签/类型和元数据键的节点/关系,而无需进行更新(即等同于 *.queryOrUpdate 过程,其中映射配置具有 mode: "READ_ONLY")。

例如,对于之前的关系,我们可以执行以下过程,它只在 rel 列中返回关系

CALL apoc.vectordb.pinecone.query($host, 'test-index',
    [0.2, 0.1, 0.9, 0.7],
    {},
    5,
    { mapping: {
            embeddingKey: "vect",
            relType: "TEST",
            entityKey: "myId",
            metadataKey: "foo"
        }
    })

我们也可以将映射用于 apoc.vectordb.pinecone.get* 过程

为了优化性能,我们可以选择使用 apoc.vectordb.pinecone.query*apoc.vectordb.pinecone.get* 过程 YIELD 什么。

例如,通过执行 CALL apoc.vectordb.pinecone.query(…​) YIELD metadata, score, id,RestAPI 请求将具有 {"with_payload": false, "with_vectors": false},这样我们就不会返回我们不需要的其他值。

可以将向量数据库过程与 apoc.ml.rag 结合使用,如下所示

CALL apoc.vectordb.pinecone.getAndUpdate($host, $collection, [<id1>, <id2>], $conf) YIELD node, metadata, id, vector
WITH collect(node) as paths
CALL apoc.ml.rag(paths, $attributes, $question, $confPrompt) YIELD value
RETURN value
删除向量(它利用了此 API
CALL apoc.vectordb.pinecone.delete($host, 'test-index', ['1','2'], {<optional config>})