检索增强生成 (RAG)

使用 Milvus 和 Zilliz Cloud 接入外部数据源，进一步拓展大语言模型知识库，释放生成式 AI 应用潜能。

大语言模型限制

缺乏领域特定信息
LLM 仅基于公开数据集训练，缺乏领域特定信息、或专有信息等非公开数据。
容易产生幻觉
LLM 只能根据其现有数据提供信息和答案，如果超出该范围，LLM 会提供错误或捏造的信息。
成本高昂且响应较慢
LLM 针对每次查询都会收费，不论是否重复，因此成本高昂。且高峰期 LLM 响应较慢，有所延迟。
无法获取最新信息
LLM 训练成本十分高昂（训练 GPT-3 的成本可高达 140 万美元），因此 LLM 无法及时更新其知识库。
Token 数量限制
LLM 会限制可添加至查询 Prompt 中的令牌数量。例如，ChatGPT-3 设置了 4,096 个 Token 的限制，GPT-4（8K）设置了 8,192 个 Token 的限制。
不变的预训练数据
LLM 使用的预训练数据可能包含过时或不正确的信息，且这些数据无法更正或删除。

Zilliz Cloud：打破限制，增强大语言模型

更新并扩展 LLM 知识库，提升 LLM 回答准确性

Zilliz Cloud 支持个人开发者及企业在 LLM 外安全存储领域特定信息和最新的机密或私有数据。用户提问时，LLM 应用先使用 embedding 模型将用户问题转化为向量。随后，在 Zilliz Cloud 中进行相似性搜索，并获得返回的 top-K 个最相似结果。最后，合并返回结果与原始问题，生成一个包含上下文的新 Prompt，以便 LLM 给出更准确的回答。

使用 Zilliz Cloud 与 GPTCache 降低 LLM 使用成本及响应时间

频繁向 LLM 询问重复或相似问题会造成浪费资源且增加使用成本。在高峰期，LLM 的响应时间也会变得漫长。使用云原生向量数据库 Zilliz Cloud 和开源语义缓存 GPTCache 可以有效存储 LLM 响应结果，从减少 AI 应用响应时间，降低开发成本。当用户提出问题时，Zilliz Cloud 会先在 GPTCache 中检查是否已经存有相同问题的回答。如有，Zilliz Cloud 则会快速返回答案。否则，Zilliz Cloud 会将问题发送至 LLM 寻求答案，并存储该问答对以便后续使用。

CVP 技术栈

ChatGPT/LLMs + 向量数据库 + Prompt 即代码

CVP 技术栈（ChatGPT/LLMs + 向量数据库 + Prompt 即代码）的热度与日俱增。以下示例的 OSS Chat 应用采用了 CVP 技术栈并展示了向量数据库如何增强 LLM 应用。

OSS Chat 聊天机器人可以回答用户问题，为用户提供开源项目相关的技术知识。OSS Chat 基于GitHub 上的仓库和文档，将各种开源项目的信息以 embedding 向量的形式收集并存储在 Zilliz Cloud 中。当用户查询关于开源项目的问题时，OSS Chat 会先在 Zilliz Cloud 向量数据库中进行向量相似性搜索以找到 top-k 个最相关问题。随后，OSS Chat 将得到的结果与原始用户问题相结合，从而生成一个带有上下文的新 Prompt，并传入 ChatGPT。该流程可以通过增加问题上下文有效提升 ChatGPT 回答的准确性。

此外，还可以在 CVP 技术栈中整合 GPTCache，进一步降低成本支出，提升 LLM 响应速度。