技术干货

使用向量搜索更好地理解计算机视觉数据

2024-07-26

By  Daniella Pontes

使用向量搜索更好地理解计算机视觉数据

你的AI数据质量有多糟糕?亲自看看:

数据质量问题

糟糕的数据可能会破坏你的AI驱动应用程序和工作流程,影响远不止是让用户感到沮丧,但这并不奇怪。

我们中的许多人都曾设想利用多模态大型语言模型(LLMs)的便利性和多功能性,来挖掘图像和视频中的丰富信息。创造奇迹,提升到新的层次,就像陈词滥调所说的。计算机视觉为新的、更充实的服务提供了这种无限的机会。但沿途存在挑战。

一个关键的挑战是如何为正确的模型策划更好的数据以获得改进的结果。由于模型的复杂性和数据的高维度,有很多微调、粗暴的力量尝试和在黑暗中的试错,这消耗了创新的资源。

如果我们能够为视觉AI工作流程带来透明度和清晰度,使其快速甚至有趣,会怎样?Voxel51将其视为使命并实现了!

正如Voxel51的机器学习工程师和开发者布道者Jacob Marks在旧金山非结构化数据聚会上演示的。

实现视觉AI

由生成性AI和机器学习驱动的新应用程序和服务的激增,揭示了利用非结构化数据的重要性以及向量数据库作为游戏规则改变者的角色。Jacob Marks在他的演讲中展示了如何将向量数据库与像Voxel51及其FiftyOne开源项目这样的工具集成,正在彻底改变视觉数据的探索、可视化和策划,以更有效、更可靠地构建AI驱动的应用程序。它允许你通过提供模型所需的确切数据集来测试和评估模型,以确保强大、准确的结果。

一切都从数据质量开始

为什么?因为更好的数据会带来更好的模型,加速成功之路。

“没有什么比糟糕的数据质量更阻碍机器学习系统成功的了,”Jacob说。没有合适的工具,准备数据和找到合适的模型可能是耗时且效率低下的。即使是熟练的机器学习工程师也需要好的工具来构建高质量的数据集和模型。

FiftyOne简化了视觉数据处理,使理解操作、调整和结果变得更容易、更快。

你可以可视化复杂标签、评估模型、探索感兴趣的场景、识别失败模式和发现注释错误等。这是通过在后台运行的LLM链实现的,生成嵌入并查询向量数据库。

现在,让我们直奔主题!

从RAG到财富:向量搜索的力量

RAG是使向量数据库流行的原因之一。

检索增强生成(RAG)通过提高大型语言模型的准确性,使向量搜索流行起来。它结合了基于检索和生成模型,以提高生成文本的质量和相关性。

这种技术使用LLM将用户提示转换为嵌入,并与向量嵌入进行比较,允许语义相似性搜索,以获得更准确、更丰富的上下文响应。

RAG

你可以比较多个向量与数据输入的相似性。所以如果你有两个文本输入,将其向量化并嵌入,你可以看到它们的接近程度,无论使用的度量标准是什么,欧几里得距离、余弦相似性还是点积。

向量相似性

你也可以拥有多模态嵌入,以在同一类型的空间中一起处理不同类型的数据,如文本、图像和视频。

向量嵌入

计算机视觉中的向量搜索

Voxel51使用Zilliz Cloud集成了Milvus,释放了视觉数据集上的向量搜索能力。以下是一些强大的用例:

图像相似性:相似性搜索是一个常见用例,而Voxel51使其变得更容易。

只需从数据集中选择你感兴趣的图像,并使用它来搜索相似的图像。所有的嵌入和查询步骤都在后台完成。保持直观和可点击的视觉体验。例如,你可以通过在GUI中选择它们来定义度量和k值等属性。

图像相似性搜索

同样容易,你也可以使用外部图像进行反向搜索。

假设你想要找出你的 visual dataset 中是否有 cane corso 狗。只需提供图像的 URI,它将自动向量化并查询与向量空间中的视觉数据集的相似性。

反向图像搜索

对象搜索:除了整个图像之外,向量数据库可以处理对象检测补丁,实现子图像内的更精确搜索。这对于面部识别或在大型数据集中识别对象等任务非常有用。

对象相似性搜索

由于搜索的对象焦点可能不是整个图像,计算整个图像的嵌入可能效果不佳,因为它不总是与对象的嵌入相似。

OCR搜索:另一个用例是交互式光学字符识别(OCR)文档。你可以直观地与文本嵌入进行交互。你可以看到文档中每一页上这些结果来自哪里。

强大的OCR文档搜索

跨模态检索:像OpenAI的CLIP和Meta的ImageBind这样的工具允许结合文本和图像嵌入。这使得可以进行跨模态检索,用户可以使用文本描述嵌入、音频嵌入等搜索图像,反之亦然。在他的示例中,火车的音频片段被嵌入,然后与所有图像进行比较,以在数据集中找到火车。

跨模态检索

感知相似性:感知相似性允许我们通过比较向量空间中的模型表示来理解不同模型如何看待世界。一些模型非常语义化,捕获高级细节和概念,但不会像下面图片那样在像素级别上捕捉图像的调色板:

探测感知相似性

更传统的计算机视觉实现使用计算神经网络获得每个像素和补丁,但它们不会获得任何正确的意义,如下所示。

探测感知相似性-2

你可以通过查看向量空间中结果的分布来比较多个模型在向量空间中的表示。一些模型的结果聚集在一起,而其他模型可能不会。它们以不同的方式看待世界,理解何时应用这些不同的视角对于你的AI质量至关重要。

还有更多的创新即将到来视觉向量搜索

概念插值:概念插值采用两个文本概念,并在它们之间插值发现。例如,给出了哈士奇和吉娃娃的初始嵌入,以寻找任何适合它们之间的事物,包括一只猫!

概念插值

概念空间遍历:通过概念空间遍历,用户可以组合和操作嵌入以调节可能嵌入空间中的属性,如示例中所示,健康和色彩丰富属性在搜索中被调节。

概念空间遍历

在后端进行了很多工作,以使搜索结合了文本、图像、其他模态的嵌入,并具有正确的属性,以提供更动态可探索的搜索空间,而你要做的就是点击或滑动到你的选择。就那么简单!

结论

向量数据库在计算机视觉中不可或缺,为数据探索、模型评估和使用多模态嵌入、概念插值和遍历进行创新搜索的视觉数据集工具提供了强大的引擎。随着AI的不断发展,集成向量数据库将在塑造基于非结构化数据的技术的未来中发挥关键作用。

正如Jacob所说,天空是有限的。通过这个方便的教程,开始实践并享受由向量数据库驱动的视觉AI的乐趣。

如果你想学习更多或开始你的计算机视觉项目,例如,欢迎加入我们的Discord频道。我们提供丰富的资源和支持性的社区,帮助你开始。

  •  Daniella Pontes

    Daniella Pontes

    Freelance Technical Writer

    准备好开始了吗?

    立刻创建 Zilliz Cloud 集群,存储和检索您的向量。

    免费试用 Zilliz Cloud