跨语言信息检索 (IR) 通过将查询或文档翻译成公共语言或嵌入空间来实现跨不同语言的搜索。通常,系统将用户的查询翻译成目标语言,或者使用机器翻译或多语言嵌入等技术将查询和文档转换成共享表示。
跨语言IR系统使用诸如双语或多语言单词嵌入 (例如,多语言BERT) 之类的模型来创建公共向量空间,从而允许直接比较来自不同语言的查询和文档。这种方法可以帮助检索用户可能不流利的语言的相关文档。
尽管跨语言IR功能强大,但挑战仍然存在,例如翻译错误或特定语言含义的歧义。然而,深度学习和预先训练的多语言模型的进步正在不断提高跨语言IR系统的质量。