什么是 GPTCache？

GPTCache是一个开源库，能够通过缓存语言模型的响应，来提高 GPT 应用的效率和速度。GPTCache允许用户根据自己的需求自定义缓存规则，包括 embedding 函数、相似性计算方式、存储位置和存储逐出规则等。目前，GPTCache 支持 OpenAI ChatGPT 接口和 LangChain 接口。

免费试用

高速发展的社区

7,829+

GitHub 获星

为什么使用 GPTCache？

使用语义缓存来存储 LLM 响应的好处如下

提升性能

将 LLM 响应存储在缓存中可以显著减少检索响应所需的时间。如果之前的请求已经存储在缓存中，能够更大幅度地降低响应时间，提高应用程序的整体性能。

节省开销

大多数LLM服务根据请求次数和令牌数的组合收费。缓存 LLM 响应可以减少对服务 API 的调用次数，从而节省成本。尤其是在高流量场景下，缓存尤为重要。如果不使用语义缓存，可能会多次调用 API，产生极高的费用。

提高可扩展性

缓存 LLM 响应可以通过降低 LLM 服务的负载来提高整体应用的可扩展性。语义缓存有助于避免系统瓶颈，确保应用可以处理更多请求。

降低开发成本

语义缓存工具能够减少大语言模型应用的开发成本。开发过程中需要连接大语言模型的 API，因此成本可能会十分高昂。GPTCache 界面与大语言模型 API 相同，可存储模型生成数据。使用 GPTCache 无需再连接至大语言模型 API，从而降低成本。

降低网络延迟

语义缓存更靠近客户端，可以减少从 LLM 服务检索数据所需的时间。降低网络延迟能有效提升用户的整体体验。

提升可用性

LLM 服务频繁限制用户或客户端在特定时间段内访问服务器的频次。触达访问速率上限时，请求会被屏蔽。用户不得不等待一段时间后才可以继续访问服务器，这种限制会导致服务中断。使用 GPTCache 后，您可以根据应用用户数量和查询量灵活快速扩展，保障服务可用性和性能。

总的来说，开发用于存储LLM响应的语义缓存可以提供多种好处，包括性能改进、降低成本、更好的可伸缩性、自定义性和降低网络延迟。

GPTCache 的工作原理

GPTCache 利用在线服务的数据局部性特点，存储常用数据，降低检索时间，减轻后端服务器负载。与传统缓存系统不同，GPTCache 进行语义缓存，识别并存储相似或相关的查询以提高缓存命中率。

GPTCache 通过 embedding 算法将查询问题转换为向量并使用向量数据库进行相似性搜索，从缓存中检索相关查询。 GPTCache 采用了模块化的设计，允许用户灵活自定义每个模块。

虽然语义缓存可能会返回假正类（false positive）和负类（negative）结果，但 GPTCache 提供 3 种性能指标来帮助开发人员优化其缓存系统。

通过上述流程，GPTCache 能够从缓存中寻找并召回相似或相关查询，如下图所示。

定制化的语义缓存

GPTCache 模块化的架构设计方便用户定制个性化语义缓存。每个模块都提供多种选择，适合各种应用场景。

大语言模型适配器（LLM Adapter）: 适配器将大语言模型请求转换为缓存协议，并将缓存结果转换为 LLM 响应。适配器方便轻松集成所有大语言模型，并可灵活扩展。GPTCache 支持多种大语言模型，包括：
- OpenAI ChatGPT API
- langchain
- Minigpt4
- Llamacpp
- dolly
- 后续将支持：Hugging Face Hub、Bard、Anthropic 等
预处理器（Pre-Processor）：预处理器管理、分析请求，并在将请求发送至 LLM 前调整请求格式，具体包括：移除输入种冗余的信息、压缩输入信息、切分长文本、执行其他相关任务等。
向量生成器（Embedding Generator）: Embedding 生成器将用户查询的问题转化为 embedding 向量，便于后续的向量相似性检索。GPTCache 支持多种模型，包括：
- OpenAI embedding API
- ONNX（GPTCache/paraphrase-albert-onnx 模型）
- Hugging Face embedding API
- Cohere embedding API
- fastText embedding API
- SentenceTransformers embedding API
- Timm 模型库中的图像模型
缓存存储（Cache Store）: GPTCache 将 LLM 响应存储在各种数据库管理系统中。GPTCache 支持丰富的缓存存储数据库，用户可根据性能、可扩展性需求和成本预算，灵活选择最适合的数据库。GPTCache 支持多个热门数据库，包括：
- SQLite
- PostgreSQL
- MySQL
- MariaDB
- SQL Server
- Oracle
向量存储（Vector Store）: 向量存储模块会根据输入请求的 embedding 查找 top-K 最相似的请求。简而言之，该模块用于评估请求之间的相似性。GPTCache 的界面十分友好，提供丰富的向量存储数据库。选择不同的向量数据库会影响相似性检索的效率和准确性。GPTCache 支持多个向量数据库，包括：
- Milvus
- Zilliz Cloud
- Milvus Lite
- Hnswlib
- PGVector
- Chroma
- DocArray
- FAISS
逐出策略（Eviction Policy） 管理：控制缓存存储和向量存储模块的操作。缓存满了之后，缓存替换机制会决定淘汰哪些数据，为新数据腾出空间。GPTCache 目前支持以下两种标准逐出策略：
- “最近最少使用”逐出策略（Least Recently Used，LRU）
- “先进先出”逐出策略（First In First Out，FIFO）
相似性评估器（Similarity Evaluator）: GPTCache 中的相似性评估模块从 Cache Storage 和 Vector Store 中收集数据，并使用各种策略来确定输入请求与来自 Vector Store 的请求之间的相似性。该模块用于确定某一请求是否与缓存匹配。GPTCache 提供标准化接口，集成各种相似性计算方式。多样的的相似性计算方式能狗灵活满足不同的需求和应用场景。GPTCache 根据其他用例和需求提供灵活性。
后处理器（Post-Processor）：后处理器负责在返回响应前处理最终响应。如果没有命中缓存中存储的数据，大语言模型适配器会从 LLM 请求响应并将响应写入缓存存储中。

关键资源

简单易用、性能超强的向量数据库

几分钟内便可轻松部署大型向量检索服务。

免费试用 Zilliz Cloud

什么是 GPTCache？

高速发展的社区

为什么使用 GPTCache？

GPTCache 的工作原理

定制化的语义缓存

介绍 OSS Chat

介绍 GPTCache

又一个缓存，但是针对 ChatGPT

简单易用、性能超强的向量数据库

AI Assistant