独家专访Zilliz创始人兼CEO星爵先生:论向量数据库在大语言模型时代的高光时刻

By Mia王璟晗  on 2024-07-19

北京时间2024年3月11日下午12:30, World Science Hill独家专访了Zilliz 的创始人兼首席执行官,全球最流行的面向 AI 应用场景的开源向量数据库系统 Milvus 的发明人星爵先生。

new1.webp new1.webp

World Science Hill创始人Mia王璟晗独家专访星爵先生视频截图

【本期人物专访】星爵

zhaop.webp zhaop.webp

星爵先生是 Zilliz 的创始人兼首席执行官。(作为向量数据库头部公司的Zilliz截至2023年,累计完成了1.13亿美元的融资。)全球最流行的面向 AI 应用场景的开源向量数据库系统 Milvus 的发明人。星爵先生自2020年起担任 Linux Foundation AI & Data 基金会董事,并于 2020 年至 2021 年期间出任董事会主席。在创立 Zilliz 之前,星爵先生于甲骨文美国总部任职,是全球首个云端多租户数据库系统 Oracle 12c 的奠基人之一。星爵先生拥有威斯康星大学麦迪逊分校计算机科学硕士学位、华中科技大学学士学位。

1.能否简单介绍一下您和您的团队最近正在做的工作?

new3.webp new3.webp

随着AI的浪潮涌现,非结构化数据处理这一需求对现代数据库提出了全新的要求,我们也尽力满足用户的这些要求。

具体来说有两个方面,一是把向量数据库的非结构化数据这方面的成本在未来的一年内降低10倍以上,在未来三年降低100倍以上,从而让我们的数据库在所有的企业得到更大规模的部署,让更多的人用起来。二是提高数据库的检索精度,以符合部分客户公司业务对于精度的特定要求,从而增加更多的应用产品。

new4.webp new4.webp

2.相信有很多我们的读者都是第一次听说向量数据库这个概念,能否请您做简单的介绍,向量数据库和普通的数据库有什么区别呢?

new5.webp new5.webp

向量数据库与普通数据库的区别主要在以下几点。

第一就是它们所处理数据的类型不一样。向量数据库处理的海量的非结构化数据,包含我们日常的图片、视频、语音、文本等等。而传统的数据库系统主要处理的则是结构化数据,结构化数据主要就是一些比较简单的数字、字符串这些。

所以,向量数据库在语义理解上,需要通过AI模型去挖掘,从而将非结构化数据转化为高维的向量。无论是图片还是视频,多模态的AI模型都可以相应地输出中间层的特征,完成对语义的理解和编码,这在传统数据库中是没有的。

new5.1.webp new5.1.webp

第二个不同点在于所服务的场景和应用领域。向量数据库是为广大的AI开发者和如今的这个AI时代量身定做的,尤其是其中对图片、视频、文本的语义理解让很多相关的AI应用受益匪浅。我们服务的主要包括大语言模型、视频理解、图片查找、基于AI的推荐系统等等。

相比较而言,传统数据库系统诞生在四五十年前,更多地是为IP时代以及数据的信息化去服务的,因此它们主要服务的产品包括这种像 ERP、CRM系统等传统任务。

这两大区别也就必然导致了第三点,产品技术路线与设计方面,我们与传统数据库有着根本上的不同。所以在2018年作为全球第一家向量数据库厂商开始做相关向量数据库产品的第一天开始,我们从存储、调度、执行引擎,包括分布式、数据的一致性等等。

在每一个层面上 from scratch 地去建造这样的一个系统,并去满足这些相应地性能要求。由于非结构性数据的量特别大,所以数据库的性能和可扩展性都成为了一个很大挑战,向量数据库所服务的这些AI原生的场景,也让我们开始思考如何去满足广大用户对视频处理、自然语言处理、图片检索等方面的需求。基于多方面的原因,我们在技术和架构上也与传统的数据库系统有着本质的区别。

3.在您看来,数据库在我们的日常生活中都有哪些领域的应用,在科学发展中数据库又扮演了什么样的角色?

new7.webp new7.webp

现在对于向量数据库,大家可能感知不那么明显,但其实它已经在很多方面影响着我们的生活了。举个例子来说,我们有很多用户平时会使用由大语言模型所支持的知识发现以及聊天的一些工具,比如ChatGPT、Perplexity,这样问答系统的背后其实都有着向量数据库的身影。通过 retrieval augmented generation 的方式,我们可以把自己的一些领域知识以及我们的一些个人喜好提供给大语言模型的问答系统,从而得到更精准的回答,来帮助大语言模型去消除其 hallucination。

在这些深层次的对话管理中,对于上下文的保存其实也是通过向量数据库的技术在后台实现的。如今大语言模型的进展日新月异,还涌现了像Sora这样视频生成模型。从科学认知层面来讲的话,这些大模型它的训练、调优,以及每次迭代中,也都离不开向量数据库通过百亿甚至千亿级别的语料和视频的分析比对。

new8.webp new8.webp

甚至在生命科学、生物制药的领域,向量数据库在过去五年中一直发挥着很重要的作用。很多药厂的药物研发团队和科研机构会去分析小分子的三维结构,还有蛋白质的三维折叠的几何结构,和人类基因序列的结构,这三种数据都是比较复杂的非结构化数据,因为它们的结构会影响到生物活性以及药理作用,所以我们会用AI模型把这些蛋白质的三维几何结构变成高维空间中的 embedding,然后通过embedding来关联结构属性与生物活性,从而完成对药物的筛选。

我们看到越来越多的AI药物筛选方向的实验室,都会通过向量数据库的方式来先行在电脑上用AI模型做虚拟药物筛选,从上百亿的备选药物中找到一些潜在机会或者结构去进一步推动下一步的药物筛选,迅速加快新药发现的流程。

4.您和您的团队在设计数据库的过程中,是如何打造灵活的数据处理功能,并防止出现个人信息的泄漏或者误用呢?

new9.webp new9.webp

事实上,从我们做产品的第一天起,我们就把数据安全作为一个重中之重。包括我们开源的 Milvus系统,它是全球最为广泛使用的向量数据库系统,现在全球有5000多家企业在每天的生产环境里面运行我们的Milvus系统,现在在全球也达到了2000多万的安装以及超2500万的下载量。

我们从第一天起就在开源的 Milvus 系统中设计了数据的访问控制与权限管理等一系列面向数据安全的功能,在数据传输层我们也支持像HTTPS这样的数据加密传输协议等等。在我们的商业化产品 Zilliz Cloud 中,我们也从第一天就开启了数据合规和数据安全的治理,我们很早就通过了SQL的compliance,现在也即将完成GDPR的compliance。

new10.webp new10.webp

在安全方面,我们做了基于SSO的质量认证,包括数据链路层的这种全面加密,和在分库分表甚至是在记录级别的这种访问控制与权限等等。总的来说,我们从一开始就致力于打造一个不仅可靠,而且安全的数据库系统。

5.能否分享一个在设计向量数据库过程中,让您印象最深刻的一件事呢?

我们是从2018年开始做这个向量数据库的,尚在前一个AI时代的我们预见到了如今的新一代生成式AI对于非结构化数据处理的需求,就决定开始做向量数据库系统,相比于现在成为了风口上的明星品类,当时的困难不胜枚举,事实上在18年的时候我们还并不被太多人了解。

new11.webp new11.webp

起初,我们在团队招聘的过程中遇到了很多困难。在工程师的圈子里面,认同向量数据库的人不多。甚至了解非结构化数据处理的,也不是很多。在发展一些初期用户的时候也是特别艰难的。用户不理解使用数据库系统的必要性。我们需要和他们的运维团队和工程师做大量的沟通。

另一个困难在于融资方面,我们见了很多投资人,也有很多投资人对这个赛道感兴趣,但因为是一个新兴行业,他们很难踢出最后的临门一脚。

new12.webp new12.webp

总而言之,我们的感悟就是,如果要做一个从底层的面向于未来的一个创新,你需要有耐心,也要有坚持。遇到的困难来说的话可能比你想象的都要大,我们一路走来,也经历了许多的痛苦时刻。

虽然说最近一两年向量数据库这个领域比较火。但是我们也始终能够保持一个平静的心态,因为从长期来讲,我们希望在未来能够在人类通向AGI的过程中提供一个长期的价值。

    准备好开始了吗?

    立刻创建 Zilliz Cloud 集群,存储和检索您的向量。

    免费试用 Zilliz Cloud
    媒体资源

    媒体资源

    下载 Zilliz 官方品牌标识及媒体资源

    媒体联系

    媒体联系

    pr@zilliz.com