检索增强生成 (RAG)

使用 Milvus 和 Zilliz Cloud 接入外部数据源,进一步拓展大语言模型知识库,释放生成式 AI 应用潜能。
免费试用

大语言模型限制

  • 缺乏领域特定信息

    LLM 仅基于公开数据集训练,缺乏领域特定信息、或专有信息等非公开数据。

  • 容易产生幻觉

    LLM 只能根据其现有数据提供信息和答案,如果超出该范围,LLM 会提供错误或捏造的信息。

  • 成本高昂且响应较慢

    LLM 针对每次查询都会收费,不论是否重复,因此成本高昂。且高峰期 LLM 响应较慢,有所延迟。

  • 无法获取最新信息

    LLM 训练成本十分高昂(训练 GPT-3 的成本可高达 140 万美元),因此 LLM 无法及时更新其知识库。

  • Token 数量限制

    LLM 会限制可添加至查询 Prompt 中的令牌数量。例如,ChatGPT-3 设置了 4,096 个 Token 的限制,GPT-4(8K)设置了 8,192 个 Token 的限制。

  • 不变的预训练数据

    LLM 使用的预训练数据可能包含过时或不正确的信息,且这些数据无法更正或删除。

Zilliz Cloud:打破限制,增强大语言模型

更新并扩展 LLM 知识库,提升 LLM 回答准确性

Zilliz Cloud 支持个人开发者及企业在 LLM 外安全存储领域特定信息和最新的机密或私有数据。用户提问时,LLM 应用先使用 embedding 模型将用户问题转化为向量。随后,在 Zilliz Cloud 中进行相似性搜索,并获得返回的 top-K 个最相似结果。最后,合并返回结果与原始问题,生成一个包含上下文的新 Prompt,以便 LLM 给出更准确的回答。

Updating and expanding LLMs’ knowledge

使用 Zilliz Cloud 与 GPTCache 降低 LLM 使用成本及响应时间

频繁向 LLM 询问重复或相似问题会造成浪费资源且增加使用成本。在高峰期,LLM 的响应时间也会变得漫长。使用云原生向量数据库 Zilliz Cloud 和开源语义缓存 GPTCache 可以有效存储 LLM 响应结果,从减少 AI 应用响应时间,降低开发成本。当用户提出问题时,Zilliz Cloud 会先在 GPTCache 中检查是否已经存有相同问题的回答。如有,Zilliz Cloud 则会快速返回答案。否则,Zilliz Cloud 会将问题发送至 LLM 寻求答案,并存储该问答对以便后续使用。

Saving time and costs

CVP 技术栈

ChatGPT/LLMs + 向量数据库 + Prompt 即代码

CVP 技术栈(ChatGPT/LLMs + 向量数据库 + Prompt 即代码)的热度与日俱增。以下示例的 OSS Chat 应用采用了 CVP 技术栈并展示了向量数据库如何增强 LLM 应用。

CVP Stack

OSS Chat 聊天机器人可以回答用户问题,为用户提供开源项目相关的技术知识。OSS Chat 基于GitHub 上的仓库和文档,将各种开源项目的信息以 embedding 向量的形式收集并存储在 Zilliz Cloud 中。当用户查询关于开源项目的问题时,OSS Chat 会先在 Zilliz Cloud 向量数据库中进行向量相似性搜索以找到 top-k 个最相关问题。随后,OSS Chat 将得到的结果与原始用户问题相结合,从而生成一个带有上下文的新 Prompt,并传入 ChatGPT。该流程可以通过增加问题上下文有效提升 ChatGPT 回答的准确性。

此外,还可以在 CVP 技术栈中整合 GPTCache,进一步降低成本支出,提升 LLM 响应速度。

使用 Milvus 和 Zilliz Cloud 搭建 LLM 应用

了解 Milvus 和 Zilliz Cloud 如何为生成式 AI 应用赋能。

  • OSS Chat
  • PaperGPT
  • NoticeAI
  • Search.anything.io
  • IkuStudies
  • AssistLink AI
了解如何搭建大语言模型应用

Milvus 集成了众多 AI 项目

OpenAI、LangChain、LlamaIndex 等众多火热 AI 项目都继承了 Zilliz Cloud 和 Milvus 以进一步提升向量召回能力。

  • OpenAI

  • LlamaIndex

  • LangChain

  • GPTCache

推荐阅读

简单易用、性能超强的向量数据库

几分钟内便可轻松部署大型向量检索服务。

免费试用 Zilliz Cloud