使用 LangChain、LangChain vector store、Google Vertex AI Gemini 2.0 Flash Thinking 和 Ollama paraphrase-multilingual 构建 RAG 聊天机器人

什么是 RAG

检索增强生成（Retrieval-Augmented Generation，简称 RAG）正引领生成式 AI，尤其是对话式 AI 的新潮流。它将预训练的大语言模型（LLM，如 OpenAI 的 GPT）与存储于向量数据库（如 Milvus、Zilliz Cloud）中的外部知识源相结合，从而让模型输出更准确、更具上下文相关性，并且能够及时融合最新信息。一个完整的 RAG 系统通常包含以下四大核心组件：

向量数据库：用于存储与检索向量化后的知识；
嵌入模型：将文本转为向量表示，为后续的相似度搜索提供支持；
大语言模型（LLM）：根据检索到的上下文和用户提问生成回答；
框架：负责将上述组件串联成可用的应用。

核心组件说明

本教程将带你在 Python 环境下，借助以下组件一步步搭建一个初级的 RAG 聊天机器人：

LangChain: 一个开源框架，帮助你协调大语言模型、向量数据库、嵌入模型等之间的交互，使集成检索增强生成（RAG）管道变得更容易。
LangChain in-memory vector store: 一个内存型， 临时性 的向量存储，将嵌入数据存储在内存中，并通过精确的线性搜索找到最相似的嵌入。默认的相似度度量是余弦相似度，但可以更改为 ml-distance 支持的任何相似度度量。目前该存储仅适用于演示，不支持 ID 或删除操作。 (如果您需要为应用程序或企业项目提供更具扩展性的解决方案，我们推荐使用 Zilliz Cloud，这是一个基于开源项目 Milvus构建的全托管向量数据库服务，并提供支持最多 100 万个向量的免费套餐。)
Google Vertex AI Gemini 2.0 Flash Thinking: 此高级AI模型旨在快速、高质量的认知分析和决策。它利用增强的自然语言理解和生成，实现无缝的互动。非常适合在客户服务、内容创作和智能自动化等实时应用中表现出色，能够在需要快速、深入回应的场景中卓越表现。
Ollama Paraphrase-Multilingual: 这个AI模型专注于在多种语言之间生成释义，增强内容的多样性和可达性。它的优势在于理解上下文，同时改变句子结构，这使其非常适合于翻译服务、内容创作和多语言学习应用。

完成本教程后，你将拥有一个能够基于自定义知识库回答问题的完整聊天机器人。

注意事项: 使用专有模型前请确保已获取有效 API 密钥。

实战：搭建 RAG 聊天机器人

第 1 步：安装并配置 LangChain

%pip install --quiet --upgrade langchain-text-splitters langchain-community langgraph

第 2 步：安装并配置 Google Vertex AI Gemini 2.0 Flash Thinking

pip install -qU "langchain[google-vertexai]"

# Ensure your VertexAI credentials are configured

from langchain.chat_models import init_chat_model

llm = init_chat_model("gemini-2.0-flash-thinking-exp-01-21", model_provider="google_vertexai")

第 3 步：安装并配置 Ollama paraphrase-multilingual

pip install -qU langchain-ollama

from langchain_ollama import OllamaEmbeddings

embeddings = OllamaEmbeddings(model="paraphrase-multilingual")

第 4 步：安装并配置 LangChain vector store

pip install -qU langchain-core

from langchain_core.vectorstores import InMemoryVectorStore

vector_store = InMemoryVectorStore(embeddings)

第 5 步：正式构建 RAG 聊天机器人

在设置好所有组件之后，我们来搭建一个简单的聊天机器人。我们将使用 Milvus介绍文档作为私有知识库。你可以用你自己的数据集替换它，来定制你自己的 RAG 聊天机器人。

import bs4
from langchain import hub
from langchain_community.document_loaders import WebBaseLoader
from langchain_core.documents import Document
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langgraph.graph import START, StateGraph
from typing_extensions import List, TypedDict

# 加载并拆分博客内容
loader = WebBaseLoader(
    web_paths=("https://milvus.io/docs/overview.md",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("doc-style doc-post-content")
        )
    ),
)

docs = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
all_splits = text_splitter.split_documents(docs)

# 索引分块
_ = vector_store.add_documents(documents=all_splits)

# Define prompt for question-answering
prompt = hub.pull("rlm/rag-prompt")


# 定义应用状态
class State(TypedDict):
    question: str
    context: List[Document]
    answer: str


# 定义应用步骤
def retrieve(state: State):
    retrieved_docs = vector_store.similarity_search(state["question"])
    return {"context": retrieved_docs}


def generate(state: State):
    docs_content = "\n\n".join(doc.page_content for doc in state["context"])
    messages = prompt.invoke({"question": state["question"], "context": docs_content})
    response = llm.invoke(messages)
    return {"answer": response.content}


# 编译应用并测试
graph_builder = StateGraph(State).add_sequence([retrieve, generate])
graph_builder.add_edge(START, "retrieve")
graph = graph_builder.compile()

测试聊天机器人

Yeah! You've built your own chatbot. Let's ask the chatbot a question.

response = graph.invoke({"question": "What data types does Milvus support?"})
print(response["answer"])

示例输出

Milvus 支持多种数据类型，包括稀疏向量、二进制向量、JSON 和数组。此外，它还支持常见的数值类型和字符类型，使其能够满足不同的数据建模需求。这使得用户能够高效地管理非结构化或多模态数据。

优化小贴士

在搭建 RAG 系统时，合理调优能显著提升性能与效率。下面为各组件提供一些实用建议：

LangChain 优化建议

为了优化 LangChain，需要通过高效地构建链路和代理来减少工作流程中的冗余操作。使用缓存避免重复计算，从而加快系统速度，并尝试采用模块化设计，确保模型或数据库等组件能够轻松替换。这将提供灵活性和效率，使您能够快速扩展系统，而无需不必要的延迟或复杂性。

LangChain in-memory vector store 优化建议

LangChain 内存型向量存储只是一个临时性的向量存储，它将嵌入数据存储在内存中，并进行精确的线性搜索以找到最相似的嵌入。它的功能非常有限，仅适用于演示。如果您计划构建一个功能完整甚至生产级的解决方案，我们推荐使用 Zilliz Cloud，这是一个基于开源项目 Milvus构建的全托管向量数据库服务，并提供支持最多 100 万个向量的免费套餐。)

Google Vertex AI Gemini 2.0 Flash Thinking 优化建议

Gemini 2.0 Flash Thinking旨在为RAG系统提供快速而深思熟虑的响应。通过专注于高置信度文档匹配来优化检索，减少不必要的数据处理。保持提示结构化，提前提供关键信息，同时避免过多的背景信息。调整温度设置（0.1–0.3）以微调响应多样性。使用缓存减少重复查询的API开销。利用Google Cloud的GPU加速处理以提高吞吐量。如果将Flash Thinking与更大模型结合使用，将其分配给需要比专业模型更快周转但比标准Flash更深度的中等复杂性推理任务。

Ollama Paraphrase-Multilingual 优化建议

为了优化您的检索增强生成（RAG）设置中的Ollama多语言释义组件，请确保您的训练数据集多样化，并能代表您打算支持的语言和方言，因为这可以提高在不同语境下的释义准确性。使用领域特定数据进行迁移学习，以提高在小众主题上的表现。根据验证结果调整诸如学习率和批量大小等超参数，以增强收敛性。实施缓存机制以存储频繁访问的释义，从而减少检索过程中的响应时间。定期监控和分析性能指标，以识别瓶颈，并考虑根据用户反馈和新数据集定期微调模型，以适应不断发展的语言使用。

通过系统性实施这些优化方案，RAG 系统将在响应速度、结果准确率、资源利用率等维度获得全面提升。 AI 技术迭代迅速，建议定期进行压力测试与架构调优，持续跟踪最新优化方案，确保系统在技术发展中始终保持竞争优势。

RAG 成本计算器

估算 RAG 成本时，需要分析向量存储、计算资源和 API 使用等方面的开销。主要成本驱动因素包括向量数据库查询、嵌入生成和 LLM 推理。RAG 成本计算器是一款免费的在线工具，可快速估算构建 RAG 的费用，涵盖切块（chunking）、嵌入、向量存储/搜索和 LLM 生成。能帮助你发现节省费用的机会，最高可通过无服务器方案在向量存储成本上实现 10 倍降本。

立即使用 RAG 成本计算器

Calculate your RAG cost

收获与总结

通过深入本教程，您已经解锁了将尖端工具结合起来，从零开始构建强大 RAG 系统的力量！您已经看到 LangChain 如何充当粘合剂，顺畅地协调组件之间的数据流。借助其直观的框架，您连接了 LangChain 的向量存储，高效管理和检索嵌入，确保您的系统能够快速访问相关信息。随后，您利用 Google Vertex AI Gemini 2.0 Flash 实现了闪电般快速、高质量的文本生成，将检索到的上下文转化为连贯且富有洞察力的答案。还有 Ollama 的多语言同义词模型，增强了您的嵌入多语言能力，使您的 RAG 管道在语言上更加灵活，完美适用于全球应用！在此过程中，您掌握了一些优化技巧，如调整块大小以改善检索效果，以及使用元数据过滤来微调结果。此外，那款 免费的 RAG 成本计算器 为您提供了一种实用的方法，以平衡性能和预算，让您在不超支的情况下更智能地构建。

现在，想象一下接下来会发生什么！您已经拥有所有组件：一个结构化工作流程的框架，一个用于加速的向量数据库，一个顶级的 LLM 用于创造力，以及一个灵活的多语言嵌入模型。这不仅仅是构建一个 RAG 系统——这还是创造能够适应、学习和扩展的解决方案。无论您是在打造聊天机器人、研究工具，还是多语言助手，您都具备了创新的能力。所以，启动您的 IDE，尝试那些优化技巧，让您的想法腾飞。人工智能驱动的应用世界正等待着您独特的视角。去创造一些令人惊叹的东西吧——记住，您写下的每一行代码都是迈向未来的一步！🚀

欢迎反馈！

我们很期待听到你的使用心得与建议！ 🌟 你可以：

在下方留言；
加入 Milvus Discord 社区，与全球 AI 爱好者一起交流。如果你觉得本教程对你有帮助，别忘了给 Milvus GitHub 仓库点个 ⭐，这将激励我们不断创作！💖

内容

大规模向量数据库

Zilliz Cloud 是一个专为大规模应用构建的全托管向量数据库，完美适配您的 RAG 应用。

免费试用 Zilliz Cloud

分享文章

快速免费计算您的 RAG 成本