博客
探索 OpenAI CLIP：多模态 AI 学习的未来发展

探索 OpenAI CLIP：多模态 AI 学习的未来发展

2024-07-25

By Haziqa Sajid

人工智能（AI）正在戏剧性地转变，从传统方法向一种新方法——多模态 AI 学习转变。这些系统可以像人类一样从各种模态获取输入并理解信息。文本、图像和音频可以一起处理，从而对世界有更深入、更精细的理解。

在这场多模态学习革命的前沿，是 OpenAI 的 CLIP（Contrastive Language-Image Pre-training，对比语言-图像预训练），这是一个用于文本和图像数据的开创性模型。CLIP 将 AI 学习推向了新的高度，扩展了我们的理解范围，使我们能够使用“眼睛”和“舌头”。

本文将探讨 CLIP 的内部工作机制及其在多模态学习中的开创性潜力。

什么是 OpenAI CLIP？

OpenAI 在 2021 年推出了 CLIP。该模型专注于通过自然语言监督学习视觉概念。计算机视觉任务通常是有监督的，训练数据限制了模型的性能。OpenAI 团队发现，用图像的原始文本描述对模型进行预训练，使其能够开箱即用地在更广泛的视觉任务中表现出色。

CLIP 代表对比语言图像预训练。它在互联网上收集的 4 亿个文本-图像对上进行了预训练。该模型使用独立的线性分类器对图像嵌入进行字幕处理。CLIP 通过训练文本和图像编码器同时对比两种模态，将图像和文本数据映射到共享空间。这种方法标志着我们今天看到的复杂多模态系统的开创性发展，例如 LlAVA、GPT-4 视觉等。

在文本-图像对上的广泛预训练以及将文本和图像模态整合到单一模型中，使 CLIP 能够识别未见过的标签。它可以在以前从未见过的图像和文本之间建立联系。这使得 CLIP 在多样化的场景中展现出惊人的性能。

对比预训练

零样本学习与 CLIP

零样本学习意味着 CLIP 能够在没有针对特定示例进行训练的情况下识别新对象并生成新的联系。流行的图像生成模型，如 DALL-E 和 Stable Diffusion，在它们的架构中使用 CLIP 进行图像理解编码。

图像生成模型架构

旧的 SOTA 图像分类模型的能力仅限于它们训练过的数据集；例如，ImageNet 模型的零样本能力仅限于分类它训练过的 1000 个类别。

如果有人想执行任何其他视觉任务，他们必须附加一个新的头到 ImageNet 模型，整理一个标记过的数据集，并微调模型。但是 CLIP 可以现成地用于各种视觉任务，无需任何微调或标记数据。

CLIP 足够多功能，可以处理许多视觉分类任务，无需额外的训练数据。要将 CLIP 用于不同的任务，只需通知其文本编码器与任务相关的视觉概念。因此，CLIP 会根据其视觉表示生成一个线性分类器。值得注意的是，这个分类器的精度经常与经过完全监督训练的模型相媲美。

Unsplash 使用 CLIP 来标记他们的图像。我们可以看到 CLIP 在不同数据集的一些随机样本上惊人的零样本预测能力。

图像标记

有效索引 CLIP 嵌入

如果我们在具有许多目标类别或大型图像组的数据上使用 CLIP 进行零样本任务，手动执行可能会耗尽计算资源和时间。另一方面，我们可以使用向量数据库高效地索引 CLIP 嵌入。例如，考虑按类别标记 UnSplash 上的大量图像集合。我们可以将计算出的图像嵌入保存在像 Zilliz! 这样的高效且多样化的向量存储中。找到每个类别标签最相似的图像向量的 top k。

使用向量存储进行大规模零样本图像标记只是向量存储如 Zilliz 可以高效帮助我们充分利用强大的多模态模型如 CLIP 的真正潜力的几个用例之一。我们可以将这种组合的效用扩展到许多其他用例，如语义搜索、无监督数据探索等！

实现 CLIP：指南

让我们使用 HugginFace 的预训练 CLIP 模型执行零样本图像分类。HF hub 为各种预训练的 CLIP 模型变体提供了相当多的选项。我们将使用 "openai-/clip-vit-bse-patch32" 模型，并将使用 transformers 库对 MS-COCO 数据集中的一些样本进行图像分类。

步骤 1. 使用 Hugging Face 的 Transformers 库可以加载 OpenAI CLIP ViT-Base 模型，代码如下：

47.11.png