使用 LangChain、pgvector、Cohere Command 和 Nomic Nomic Embed 构建 RAG 聊天机器人

什么是 RAG

检索增强生成（Retrieval-Augmented Generation，简称 RAG）正引领生成式 AI，尤其是对话式 AI 的新潮流。它将预训练的大语言模型（LLM，如 OpenAI 的 GPT）与存储于向量数据库（如 Milvus、Zilliz Cloud）中的外部知识源相结合，从而让模型输出更准确、更具上下文相关性，并且能够及时融合最新信息。一个完整的 RAG 系统通常包含以下四大核心组件：

向量数据库：用于存储与检索向量化后的知识；
嵌入模型：将文本转为向量表示，为后续的相似度搜索提供支持；
大语言模型（LLM）：根据检索到的上下文和用户提问生成回答；
框架：负责将上述组件串联成可用的应用。

核心组件说明

本教程将带你在 Python 环境下，借助以下组件一步步搭建一个初级的 RAG 聊天机器人：

LangChain: 一个开源框架，帮助你协调大语言模型、向量数据库、嵌入模型等之间的交互，使集成检索增强生成（RAG）管道变得更容易。
Pgvector: 一个面向 PostgreSQL 的开源扩展，可高效存储和查询高维向量数据，适用于机器学习和 AI 应用。该扩展专为处理嵌入数据而设计，支持使用 HNSW 和 IVFFlat 等算法进行快速的近似最近邻（ANN）搜索。但由于它只是传统搜索的向量搜索附加组件，而非专门构建的向量数据库，因此在可扩展性、可用性以及其他企业级应用所需的高级功能方面存在不足。因此，如果您需要更具扩展性的解决方案，或不想管理自己的基础设施，我们推荐使用 Zilliz Cloud，这是一个基于开源项目 Milvus构建的全托管向量数据库服务，并提供支持最多 100 万个向量的免费套餐。)
Cohere Command: Cohere Command是一种强大的语言模型，专为面向任务的应用设计，强调效率和可扩展性。它在生成上下文响应方面表现出色，能够执行自然语言处理任务，如文本生成、摘要和查询回答。非常适合希望增强客户互动和自动化工作流程的企业，通过准确和相关的输出来提高效率。
Nomic Nomic Embed: Nomic Embed 是一个先进的 AI 模型，旨在生成高维嵌入，用于捕捉文本数据中的语义关系。它的优势在于提供强大的文本表示，从而在自然语言理解任务中实现卓越的性能，例如信息检索、情感分析和推荐系统。Nomic Embed 非常适合于内容个性化和知识发现等应用，简化了从大型数据集中提取洞察的过程。

完成本教程后，你将拥有一个能够基于自定义知识库回答问题的完整聊天机器人。

注意事项: 使用专有模型前请确保已获取有效 API 密钥。

实战：搭建 RAG 聊天机器人

第 1 步：安装并配置 LangChain

%pip install --quiet --upgrade langchain-text-splitters langchain-community langgraph

第 2 步：安装并配置 Cohere Command

pip install -qU "langchain[cohere]"

import getpass
import os

if not os.environ.get("COHERE_API_KEY"):
  os.environ["COHERE_API_KEY"] = getpass.getpass("Enter API key for Cohere: ")

from langchain.chat_models import init_chat_model

llm = init_chat_model("command", model_provider="cohere")

第 3 步：安装并配置 Nomic Nomic Embed

pip install -qU langchain-nomic

import getpass
import os

if not os.environ.get("NOMIC_API_KEY"):
  os.environ["NOMIC_API_KEY"] = getpass.getpass("Enter API key for Nomic: ")

from langchain_nomic import NomicEmbeddings

embeddings = NomicEmbeddings(model="nomic-embed-text-v1")

第 4 步：安装并配置 pgvector

pip install -qU langchain-postgres

from langchain_postgres import PGVector

vector_store = PGVector(
    embeddings=embeddings,
    collection_name="my_docs",
    connection="postgresql+psycopg://...",
)

第 5 步：正式构建 RAG 聊天机器人

在设置好所有组件之后，我们来搭建一个简单的聊天机器人。我们将使用 Milvus介绍文档作为私有知识库。你可以用你自己的数据集替换它，来定制你自己的 RAG 聊天机器人。

import bs4
from langchain import hub
from langchain_community.document_loaders import WebBaseLoader
from langchain_core.documents import Document
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langgraph.graph import START, StateGraph
from typing_extensions import List, TypedDict

# 加载并拆分博客内容
loader = WebBaseLoader(
    web_paths=("https://milvus.io/docs/overview.md",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("doc-style doc-post-content")
        )
    ),
)

docs = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
all_splits = text_splitter.split_documents(docs)

# 索引分块
_ = vector_store.add_documents(documents=all_splits)

# Define prompt for question-answering
prompt = hub.pull("rlm/rag-prompt")


# 定义应用状态
class State(TypedDict):
    question: str
    context: List[Document]
    answer: str


# 定义应用步骤
def retrieve(state: State):
    retrieved_docs = vector_store.similarity_search(state["question"])
    return {"context": retrieved_docs}


def generate(state: State):
    docs_content = "\n\n".join(doc.page_content for doc in state["context"])
    messages = prompt.invoke({"question": state["question"], "context": docs_content})
    response = llm.invoke(messages)
    return {"answer": response.content}


# 编译应用并测试
graph_builder = StateGraph(State).add_sequence([retrieve, generate])
graph_builder.add_edge(START, "retrieve")
graph = graph_builder.compile()

测试聊天机器人

Yeah! You've built your own chatbot. Let's ask the chatbot a question.

response = graph.invoke({"question": "What data types does Milvus support?"})
print(response["answer"])

示例输出

Milvus 支持多种数据类型，包括稀疏向量、二进制向量、JSON 和数组。此外，它还支持常见的数值类型和字符类型，使其能够满足不同的数据建模需求。这使得用户能够高效地管理非结构化或多模态数据。

优化小贴士

在搭建 RAG 系统时，合理调优能显著提升性能与效率。下面为各组件提供一些实用建议：

LangChain 优化建议

为了优化 LangChain，需要通过高效地构建链路和代理来减少工作流程中的冗余操作。使用缓存避免重复计算，从而加快系统速度，并尝试采用模块化设计，确保模型或数据库等组件能够轻松替换。这将提供灵活性和效率，使您能够快速扩展系统，而无需不必要的延迟或复杂性。

pgvector 优化建议

为了优化 pgvector 在检索增强生成（RAG）设置中的表现，可以考虑使用 GiST 或 IVFFlat 索引向量，以显著加快搜索查询并提高检索性能。确保在查询执行过程中利用并行化，使得多个查询能够同时处理，尤其是在处理大数据集时。通过调整向量存储大小并在可能的情况下使用压缩嵌入来优化内存使用。为了进一步提升查询速度，可以实现预过滤技术，在查询之前缩小搜索空间。定期重建索引，以确保其与新数据保持同步。通过微调向量化模型来减少维度，同时不牺牲准确性，从而提升存储效率和检索时间。最后，仔细管理资源分配，利用水平扩展处理更大的数据集，并将计算密集型操作卸载到专用处理单元，以保持在高流量期间的响应能力。

Cohere Command 优化建议

Cohere Command 是一款通用语言模型，可以通过提示工程、有效检索和结构化响应控制来优化 RAG 工作流程。为了提高准确性，使用 Cohere 的重新排序功能在将检索到的文档传入模型之前进行筛选和优先排序。保持输入提示简洁且结构化，减少标记开销，同时确保模型有明确的上下文。通过调整温度（0.1–0.3 以确保事实准确性）和 top-p 采样等参数来优化响应质量，以控制创造力水平。通过结合密集和稀疏检索方法实施混合搜索技术，以提高召回率和精准度。为了成本效益的扩展，缓存频繁查询的响应，并为常见知识领域预计算嵌入。在需要实时生成的场景中流式传输响应，尽量减少延迟，同时确保用户参与度。通过 Cohere 的分析工具监控 API 使用情况和延迟，以根据性能趋势微调检索策略。

Nomic Nomic Embed 优化建议

为了优化在检索增强生成（RAG）设置中的 Nomic Nomic Embed 组件，重点是使用特定领域的数据微调您的嵌入模型，以增强上下文相关性。实施高效的索引策略，如使用 FAISS 或 Annoy，以加快检索速度而不影响准确性。尝试使用降维技术，如 PCA 或 t-SNE，来减少计算负担，同时保留重要的语义信息。定期清理和预处理您的语料库，以消除噪声并提高嵌入质量。最后，监测嵌入漂移情况，并定期更新您的嵌入，以确保它们反映目标领域的最新知识。

通过系统性实施这些优化方案，RAG 系统将在响应速度、结果准确率、资源利用率等维度获得全面提升。 AI 技术迭代迅速，建议定期进行压力测试与架构调优，持续跟踪最新优化方案，确保系统在技术发展中始终保持竞争优势。

RAG 成本计算器

估算 RAG 成本时，需要分析向量存储、计算资源和 API 使用等方面的开销。主要成本驱动因素包括向量数据库查询、嵌入生成和 LLM 推理。RAG 成本计算器是一款免费的在线工具，可快速估算构建 RAG 的费用，涵盖切块（chunking）、嵌入、向量存储/搜索和 LLM 生成。能帮助你发现节省费用的机会，最高可通过无服务器方案在向量存储成本上实现 10 倍降本。

立即使用 RAG 成本计算器

Calculate your RAG cost

收获与总结

恭喜你！通过深入这个教程，你已经解锁了将尖端工具结合起来从零开始构建 RAG (检索增强生成) 系统的力量。你了解到 LangChain 如何充当整个管道的粘合剂，无缝地连接你的数据源、处理逻辑和 AI 模型。借助 pgvector 作为你的向量数据库，你可以高效地存储和检索嵌入，使得闪电般快速的相似性搜索成为可能，从而使你的 RAG 系统响应迅速且准确。当你将 Cohere Command（一种生成类似人类文本的强大 LLM）与 Nomic Nomic Embed（一种将非结构化数据转化为有意义的向量表示的嵌入模型）相结合时，真正的魔法就出现了。这些工具让你能够构建理解上下文的应用程序，动态提取相关信息，并提供深刻的答案——就像拥有一个强大的研究助手或一个真正懂行的客户支持机器人！

但等等，还有更多！你还获得了优化 RAG 管道的专业技巧，比如通过分块策略平衡速度和准确性，或微调检索阈值。别忘了教程中介绍的 免费 RAG 成本计算器——这是一个改变游戏规则的工具，有助于你为项目预算和负责任地扩展。当你看到这些部分如何结合在一起时，真正的冒险才刚刚开始。想象一下可能性：个性化学习工具、超精准推荐引擎，甚至是 AI 驱动的创意协作伙伴。你已经拥有了蓝图——是时候进行实验、迭代并创造一些非凡的东西。无论你是在调整参数、探索新数据集，还是将这些工具整合到下一个伟大的创意中，请记住：你编写的每一行代码都是在塑造 AI 未来的步骤。所以，继续吧——构建、优化和创新。世界在等待你下一个创造的作品！🚀

欢迎反馈！

我们很期待听到你的使用心得与建议！ 🌟 你可以：

在下方留言；
加入 Milvus Discord 社区，与全球 AI 爱好者一起交流。如果你觉得本教程对你有帮助，别忘了给 Milvus GitHub 仓库点个 ⭐，这将激励我们不断创作！💖

内容

大规模向量数据库

Zilliz Cloud 是一个专为大规模应用构建的全托管向量数据库，完美适配您的 RAG 应用。

免费试用 Zilliz Cloud

分享文章

快速免费计算您的 RAG 成本