七年磨一剑,星爵要让Zilliz成为向量数据库领域最亮的那颗星 | 助力中小企业AI化系列访谈
By 维观 on 2024-07-19
导语:3月28日,创业黑马集团在2024黑马AI培训战略发布会上,董事长牛文文表示黑马致力于成为面向千行百业中小企业的AI应用推广和服务平台,希望AI产业专家、产业龙头、产业投资机构和产业新锐企业,一起携手助力中国中小企业AI化,一起推动中国AI产业的创新发展。
i黑马作为创业黑马集团旗下的核心媒体平台,推出“助力中小企业AI化”栏目,挖掘并报道AI产业中能助力中小企业AI化的企业或机构,促进他们与中小企业之间更好的联动与合作。
刚刚结束的英伟达GTC大会,堪称“AI界的春晚”,除了黄仁勋发布的Blackwell芯片和机器人等新品以及未来对NIM软件服务平台的投入,让人备受瞩目,还有另外一家中国AI企业荣耀绽放,那就是向量数据库头部企业Zilliz.创始人星爵,携合伙人及研发VP栾小凡、AI和机器学习负责人Frank Liu ,集体亮相GTC大会,在不同的活动环节进行主题演讲,让全球AI从业者牢牢记住了Zilliz这家公司的名字。
那,什么是向量?什么是向量数据库?在哪些场景中应用?对于企业AI化有什么价值?Zilliz又是凭什么获得英伟达如此高的重视度?带着这些疑问,我们趁创始人星爵回国的空档,进行了一次简短的交流。
以下内容是访谈精选,用一杯咖啡的时间,品一下。
向量是由机器学习模型所产生的一种高维数据的表示,被用来表达各种非结构化数据的语义。星爵看到全球80%的数据都是非结构化数据,这是一个具有无限想象空间的市场。于是在2017年毅然辞去美国Oracle公司云数据库创始工程师的高阶职位,回国创办了Zilliz,并在2018年推出了Milvus向量数据库服务产品,7年的创新与坚持,Zilliz已然成长为向量数据库领域的头部公司,也获得到了英伟达的青睐与合作。
Zilliz眼里的数据世界
早在2018年,星爵就看到了AI里面的三支柱:算法、算力和数据,并预见到非结构化数据领域的巨大机会。
在过去几十年的 IT 时代,我们见证了关系型数据库和结构化数据处理的兴盛和繁荣。结构化数据指的是按照固定格式或模式组织的数据,这使得它易于被计算机系统和应用程序存取、查询和分析。这种数据通常存储在关系数据库中,如SQL数据库,其中的数据被安排在表格中,表格有明确的行和列。每列都有一个预定义的数据类型,如整数、浮点数、字符串等。例如,一个公司员工的数据库可能包含多个表格,如员工信息表,其中包括员工编号、姓名、职位、部门等列。这种结构使得可以很容易地执行如搜索特定员工、列出某个部门所有员工等操作。
在 AI 时代,数据处理的类型发生了变化,从结构化变成了非结构化。非结构化数据指的是没有预定义数据模型或不容易适应传统数据表格结构的数据。这类数据包括文本文件、电子邮件、视频、音频、图像、用户行为画像和小分子三维结构等。非结构化数据通常不符合固定的格式,其内容的组织方式和表达形式可以极其多样。因为缺乏明确的结构,处理和分析非结构化数据需要更复杂的方法和技术。通过大模型神经网络,我们可以把非结构化数据转换成计算机能够处理和理解的数据类型,这个数据类型叫做向量。变成向量以后,就可以让计算机对非结构化数据做分析、检索和管理,这样就可以赋能各种AI的算法和AI的应用场景。
而随着 AI 逐渐得到广泛的应用,需要存储和处理的非结构化数据和向量数据变得越来越多,就需要有一个专门的数据管理系统来存储管理、分析和检索,向量数据库就应运而生。
Zilliz向量数据库的应用场景
单纯的数据世界,是枯燥乏味的,但在数字经济时代,数据已经成为一种新型生产要素,是数字化、网络化、智能化的基础,国家在2023年底也在重点推行数据要素相关政策,并在各地开始建立数据交易所,这无疑让企业对数据的重视程度变得越来越高,也在重新思考数据到底可以在哪些业务应用场景发挥价值。
在与数据打交道多年、曾为美国Oracle公司云数据库创始工程师的星爵眼里,数据,却如繁花一般,绽放于大千世界,让业务变得鲜活而多彩。
经过7年的深耕,Zilliz向量数据库已经被广泛应用于RAG、大模型训练、数据去重、图文及视频搜索、推荐系统、问答系统、版权保护、反欺诈、自动驾驶、新药发现等场景。
1、大模型知识库(RAG):企业将私域数据经过文本分割和向量化后存储在向量数据库中,构建起专属的外部知识库,在后续的检索任务中为大模型提供提示信息,辅助生成更加准确的答案。
2、大模型训练:向量数据库在大型语言模型训练中可以用于语义搜索、去重、异常检测、内容推荐、交互式学习和微调。它通过处理和检索语义嵌入向量来提高数据处理效率,支持模型在数据预处理、训练及微调过程中更精准高效地工作。 3、多模态数据检索:在文本/图像/音频数据库中搜索与指定样本最相似的结果,文本/图像/音频的特征可以存储在向量数据库中,通过高性能的索引存储实现高效的相似度计算,返回匹配的文本/图像/音频结果。 4、搭建推荐系统:推荐系统的目标是根据用户的历史行为和偏好来推荐可能感兴趣的物品,用户行为特征可以被向量化后存储在向量数据库中,当发起推荐请求时,系统基于用户特征进行相似度计算,并返回可能感兴趣的物品作为推荐结果。
Zilliz Cloud为中小企业降低AI应用的数据处理门槛
大多数企业,尤其是中小企业,都希望能使用AI,算力和模型都相对容易解决,但数据却是最难的一关。数据的沉淀、清洗、管理,以及数据如何便捷地导入大模型里面进行训练,这些都成为企业AI应用的阻力。
这在星爵看来,Zilliz Cloud就是专为中小企业降低AI数据处理和应用门槛而设计的产品和服务。
n5.1.webp
Zilliz Cloud是由Milvus原厂打造的基于Milvus的全托管向量数据库云服务,包含全托管的SaaS及BYOC向量数据库服务,提供深度优化、开箱即用的Milvus 体验。使用Zilliz Cloud可以轻松构建百亿级向量数据库,分钟级部署和扩展向量搜索服务,并由全球最专业的向量数据库团队提供运维、优化、及综合支持。
企业只需要把文本、图片和音视频这些数据给到Zilliz Cloud,通过data pipeline,把各种非结构化数据转换成为一个向量的表达。当企业要做AI应用的时候,就能便捷地把需要的数据提取出来,省去了各种中间复杂的技术环节,真正做到开箱即用。
截至目前,Zilliz Cloud 已实现全球5朵云13个节点的全覆盖,是全球首个提供海内外多云服务的向量数据库企业,付费用户遍及全球多个国家和地区,覆盖AIGC领域、电商、在线教育等场景。
n5.2.webp
Zilliz这7年来对数据创新的坚守与坚持,已然成为向量数据库领域的头部企业,这一切也被英伟达CEO黄仁勋看在眼里,连续2年GTC大会都重点提到向量数据库和Zilliz,并在今年GTC大会邀请三位核心成员登上GTC大会的舞台,向全世界AI从业者们,宣告Zilliz在英伟达业务布局中的核心地位。
当然,这也是英伟达在寻求业务增长点和持续向未来下注的关键一步。一方面,英伟达希望在数据这个层面能够分一杯羹,毕竟全世界80%的数据都是非结构化数据,英伟达希望通过跟Zilliz的合作,在AI数据分析领域,尤其是非结构化数据这个层面,找到一个坚实的增长点。另一方面,英伟达在持续向未来下注,包括机器人、自动驾驶、生物制药和NIM软件服务平台,而这些都离不开向量数据库。
Zilliz未来要打造一个非结构化数据的一个平台
提到Zilliz的未来布局,星爵的眼里泛着光,嘴角流露出一丝笑意,那是一种技术人特有的自信,尤其是当下数据要素作为新型生产要素,政府加强立法管理之后,星爵觉得这是一个更大的利好,给了Zilliz更强的信心。 3月初,Zilliz上线了腾讯云,自此,已经实现了全球主流公有云的覆盖,进一步扩展了Zilliz Cloud的商业化云服务,以此可以服务全球更多的客户。
其次,Zilliz会进一步加大Data Pipelines 这个产品的投入,让客户能更便捷地把各种非结构化数据转换成结构化数据,去构建各种AI的应用。
第三,随着大语言模型的广泛应用,Zilliz会加大在多模态应用领域的技术投入,包括面向于图片、视频、语音等多模态场景下的商业产品对接,增强易用性。
最后,Zilliz的长期愿景是要打造一个非结构化数据平台,目前还只是一个提供非结构化数据的存储、管理、检索的技术平台,那再往上延展,就是一个数据平台,要具备数据交换的能力。因为对于很多企业来说,既然用了Zilliz的云产品,把数据放到Zilliz Cloud上了,可以企业内部使用,也可以在合规合法保障数据安全的情况下,把一些数据进行流通和交易,让一些经过授权合作的企业,也用起来,进一步放大数据存在的价值。
Zilliz推出“Zilliz AI初创计划”助力AI初创企业成长
回到这个系列访谈的主题,“助力中小企业AI化”,黑马和Zilliz也都一直在路上。今年3月,Zilliz发起“AI初创计划”,这是一项面向AI初创企业推出的扶持计划,为全球的AI初创团队提供资源、技术、市场推广、销售等全方位的支持,还将提供总计1000万元的Zilliz Cloud抵扣金,帮助 AI 开发者构建高效的非结构化数据管理系统,打造高质量AI服务与应用,加速产业落地。
n5.3.webp
尽管Zilliz还是一家创业公司,这次推出这个 AI 初创计划,也的确是难能可贵,也进一步彰显了星爵对技术创新的长期主义。
在被问到为什么推出这个计划,星爵似乎也感同身受。他发现很多企业的工程师,其实特别想尝试一些新的产品和技术,但由于内部要走各种复杂的审批流程和采购流程,而未能如愿。因此星爵就想,如何能帮助到这些敢于创新的工程师在一个很低成本甚至零成本情况下先用起来,帮助他们去验证是有价值的,这本身就是一件对推动技术创新应用非常有价值的事情。
因此,Zilliz的AI初创计划,最基本的一个初衷就是希望有更越来越多的企业,能够零门槛的更加快速的去搭建他们的AI应用,能够把他们企业的那些非结构化数据,更好地用起来,去赋能业务,更好地服务客户。
对该计划感兴趣的可去 Zilliz 中文官网填写申请,项目专员将会及时联系(活动申请截止日期为 2024年6月30日)。
在这次访谈即将结束的时候,星爵无比感叹我们生活在一个特别好的时代,能够见证这次AI变革所带来的无限想象,再加上中国目前强大的政治经济基础,给创业者们提供了一个前所未有的全球化创业环境。
相信更多如星爵般的创业者,凭借与生俱来的聪明勤奋和坚韧不拔,一定能趁此AI的东风,飞得更高更远。(作者:维观)
媒体资源
下载 Zilliz 官方品牌标识及媒体资源
媒体联系