NvidiaDocumentEmbedder
该组件计算文档列表的嵌入,并将获得的向量存储在每个文档的嵌入字段中。
| pipeline 中的最常见位置 | 在索引管道中的 DocumentWriter 之前 |
| 必需的初始化变量 | "api_key": NVIDIA NIM 的 API 密钥。可以通过以下方式设置环境变量 `NVIDIA_API_KEY`。 |
| 强制运行变量 | “documents”:文档列表 |
| 输出变量 | “documents”:文档列表(已添加嵌入信息) “meta”:元数据字典 |
| API 参考 | Nvidia |
| GitHub 链接 | https://github.com/deepset-ai/haystack-core-integrations/tree/main/integrations/nvidia |
概述
NvidiaDocumentEmbedder 使用其内容的嵌入来丰富文档的元数据。
它可以与自托管模型(通过 NVIDIA NIM)或托管在 NVIDIA API catalog 上的模型一起使用。
要嵌入字符串,请使用 NvidiaTextEmbedder。
用法
要开始使用NvidiaDocumentEmbedder,请先安装nvidia-haystack 包
pip install nvidia-haystack
您可以使用NvidiaDocumentEmbedder 和 NVIDIA API catalog 上所有可用的嵌入器模型,或者使用通过 NVIDIA NIM 部署的模型。请遵循 部署文本嵌入模型 指南,了解如何在您的基础设施上部署所需模型。
单独使用
要使用 NVIDIA API catalog 中的 LLM,您需要指定正确的api_url 和您的 API 密钥。您可以直接从 catalog 网站 获取您的 API 密钥。
该NvidiaDocumentEmbedder 需要 Nvidia API 密钥才能工作。默认情况下,它使用NVIDIA_API_KEY 环境变量。否则,您可以在初始化时通过api_key 传递 API 密钥,如下例所示。
from haystack.utils.auth import Secret
from haystack_integrations.components.embedders.nvidia import NvidiaDocumentEmbedder
embedder = NvidiaDocumentEmbedder(
model="nvidia/nv-embedqa-e5-v5",
api_url="https://integrate.api.nvidia.com/v1",
api_key=Secret.from_token("<your-api-key>"),
)
embedder.warm_up()
result = embedder.run("A transformer is a deep learning architecture")
print(result["embedding"])
print(result["meta"])
要使用本地部署的模型,您需要将api_url 设置为您的 localhost 并取消设置您的api_key.
from haystack_integrations.components.embedders.nvidia import NvidiaDocumentEmbedder
embedder = NvidiaDocumentEmbedder(
model="nvidia/nv-embedqa-e5-v5",
api_url="http://0.0.0.0:9999/v1",
api_key=None,
)
embedder.warm_up()
result = embedder.run("A transformer is a deep learning architecture")
print(result["embedding"])
print(result["meta"])
在 pipeline 中
以下是 RAG 管道的示例
from haystack import Pipeline, Document
from haystack.document_stores.in_memory import InMemoryDocumentStore
from haystack_integrations.components.embedders.nvidia import NvidiaTextEmbedder, NvidiaDocumentEmbedder
from haystack.components.retrievers.in_memory import InMemoryEmbeddingRetriever
document_store = InMemoryDocumentStore(embedding_similarity_function="cosine")
documents = [Document(content="My name is Wolfgang and I live in Berlin"),
Document(content="I saw a black horse running"),
Document(content="Germany has many big cities")]
indexing_pipeline = Pipeline()
indexing_pipeline.add_component("embedder", NvidiaDocumentEmbedder(
model="nvidia/nv-embedqa-e5-v5",
api_url="https://integrate.api.nvidia.com/v1",
api_key=Secret.from_token("<your-api-key>"),
))
indexing_pipeline.add_component("writer", DocumentWriter(document_store=document_store))
indexing_pipeline.connect("embedder", "writer")
indexing_pipeline.run({"embedder": {"documents": documents}})
query_pipeline = Pipeline()
query_pipeline.add_component("text_embedder", NvidiaTextEmbedder(
model="NV-Embed-QA",
api_url="https://ai.api.nvidia.com/v1/retrieval/nvidia",
api_key=Secret.from_token("<your-api-key>"),
))
query_pipeline.add_component("retriever", InMemoryEmbeddingRetriever(document_store=document_store))
query_pipeline.connect("text_embedder.embedding", "retriever.query_embedding")
query = "Who lives in Berlin?"
result = query_pipeline.run({"text_embedder":{"text": query}})
print(result['retriever']['documents'][0])
其他参考资料
更新于 10 天前
