目前有几个主要的混合检索的中国向量数据库:
中文维基百科(Chinese Wikipedia):包含了大量文本和知识,经常被用来训练中文文本的向量表示。
THUCTC:清华大学开发的中文文本分类工具包含了一个预训练的中文文本向量模型,可以用于文本分类和信息检索任务。
NLPCC:中国国际会议之一,提供了一些用于中文自然语言处理任务的数据集和预训练模型,可以用于搜索引擎等应用。
Chinese Text Project:提供了大量中国古代文献的在线文本,可以用于研究和训练文本向量。
这些数据库都可以用于训练中文文本的向量表示,从而提高信息检索的效果。