博客
别让错配阶段的 Data Infra，拖垮你的AI项目

别让错配阶段的 Data Infra，拖垮你的AI项目

2026-06-101 分钟阅读

这几年和各类 AI 团队、互联网企业打交道，我发现一个常见问题：很多团队的 AI Infra 选型本身并不差，真正的问题是它和项目所处阶段不匹配：过早工程化，会在早期严重拖慢产品迭代速度；但低估未来的业务规模与复杂度，又会在后来的业务爆发期，顶着业务压力被迫做infra的推倒重构。

AI 项目在不同发展阶段里，围绕 Data Infra 常踩的坑也往往不一样。结合过往用户支持经验，我们把它拆成四个典型阶段来聊一聊，希望这些总结能帮大家少走一些弯路。

一、原型期：快速跑起来就是最高美德

原型期速度远比数据基础设施重要。或者更准确地说，这个阶段甚至不需要所谓的数据基础设施。可扩展性，治理能力、性能优化这些，在这阶段都不用做重点考虑。

这个阶段的目标只有一个，让应用先跑起来。

这阶段最常见的错误，是把复杂度、高级能力认为是产品能力的底层保障：团队还没有多少文档需要导入，就先搭起了流式数据摄入管道；还没有一个真实用户，就开始配置生产级复制；数据规模还远没有大到需要认真考虑一致性，就已经开始担心多个系统之间的数据同步问题。

团队花了好几周做的基础设施，服务的可能只是一个一周时间就会被否掉的产品思路。而这时间其实已经足以去验证一些关键的产品想法。

如果对生产级向量数据库的熟悉度不高，那这一阶段使用它的必要性其实不高。这一阶段团队需要的其实是：

Milvus、pgvector、Elasticsearch，或者一个轻量级搜索Library
本地文件系统

总之，不同选型之间的检索质量差距，远远小于“有一个能工作的原型”和“什么都没跑起来”之间的差距。先让团队在几天内把应用跑起来的就是最优解。

二、PMF 期：数据库越多，问题越多

一旦用户开始上量，团队的重点就会从做一个 demo 转向持续改进产品。

这时候，很多企业会走入一个误区：数据库类型越有针对性，检索质量就越好。

然后团队就开始为每一种检索任务配一套系统：PostgreSQL 用来做过滤，Elasticsearch 用来做关键词搜索，MongoDB 存文档，Milvus 存向量，Neo4j 处理图关系。

检索栈的增长速度，甚至超过了产品本身。

于是，怎么做数据的同步管理，以及多套数据库系统的维护，成为了新的困扰。

文档存放在一个系统里，embedding 存在另一个系统里，元数据又放在第三个系统里。于是每一次写入，都变成了一个异构分布式系统的数据一致性问题。一次删除失败，会留下孤儿向量；一次部分插入，会产生过期 embedding；一次 schema 变更，意味着多个pipeline都要同时更新。

这一阶段，PMF 期最容易误判的是：把检索质量问题归因于数据库能力不够。但其实，检索质量很少取决于你接入了多少种数据库。

这一阶段改善数据pipeline本身带来的提升效果，可能会更明显，比如：query rewriting 改写、迭代式搜索、渐进式信息展开、更好的 reranking。站在数据层看，新增一个 embedding 字段，或者支持一种新的模态，往往比再接入一个专门数据库更能提升检索质量。

更不用说，现代向量数据库的能力边界，早已不只是存向量。全文搜索、JSON 过滤、地理空间搜索、混合检索——多数成熟系统基本都已经原生支持。过去那种每种任务配一个专门数据库的假设，正在变得越来越过时。

这时候，用一个系统覆盖完整的检索需求，不仅运维起来更简单，也能为下一阶段的演化打下更干净的基础。

很多团队在增长中期被迫重建数据infra，有时候不是因为他们选错了数据库，反而是因为他们选了太多数据库。

所以，infra选型，看三点能力就好：

是否可托管：让供应商负责可靠性，让团队把精力集中在产品本身
一个系统支撑多种检索：支持向量、全文、JSON、过滤、混合检索，而不是为每个任务配一套数据库
足够的增长余量：能够支撑下一个数量级的增长，而不必重构

三、规模化阶段：不是所有工作负载都该共享同一套计算资源

到规模化阶段，成本压力会成为团队的第一考量。原因很简单：数据增长速度通常比收入增长速度更快。

这个阶段最常见的错误，是以为过去的传统数据库方案已经带来了如今的成功，自然也能顺利支撑团队的下一个阶段需求。

但这时候，infra上已经没有多少轻松重构的空间了。对高增长团队来说，做infra迁移，要么极其昂贵，要么极其危险，往往两者兼具。

这时候，应该把所有的数据都直接放在S3之类的对象存储上。因为在存储层，对象存储是现有方案中最便宜、最可靠、最具扩展性的选择。

而对象存储在架构中，承担的角色不只是一个持久化存储层，更是整个检索架构的基础层。

在基础层之上，我们可以只在有需要的业务中引入合适的计算资源。比如，对延迟敏感的服务使用长期在线的集群；数据导入和索引构建使用临时计算资源；分析和批处理任务使用按需计算。每种工作负载只获得它所需要的计算资源。

这就是 Vector Lakebase 的核心：存储层始终在线，计算则不必常驻，而是只在需要时、只针对具体工作负载启动。 最重要的是，所有计算资源——无论是长期运行的，还是按需启动的——本质上都只是对象存储层的缓存。数据始终只存在于存储层里，计算只是不同访问数据的方式。比如：

内存型：适合高 QPS、低延迟场景，例如 AI 推荐系统、实时检索
内存 + SSD：适合上下文、记忆、知识库等在线服务
分层存储型：适合访问频率较低的冷内容
on demand型：适合批处理、内部分析、测试环境

如果采用更灵活的架构设计，相比统一计算资源的设计，至少能降低 50% 甚至更多的基础设施成本，同时还能让每类工作负载获得更好的服务质量。

而一些团队更青睐的Serverless 方案往往也难以解决这一阶段的成本困境。因为数据一旦进入 TB 级别，写入成本和存储成本就会开始占据主导。但serverless 架构会把资源池化开销、索引成本、持久化数据成本都打包进写入和存储的溢价里。在这一模式下，用户其实已经不是在为实际用量付费，而是在为抽象层付费。

总之，这一阶段：你的基础架构必须匹配你的数据规模增长，不要和你的数据规模对抗。 如果强迫一种架构同等服务所有工作负载，最终结果往往是没有任何一种工作负载被真正服务好。而这种妥协的成本，会随着每GB数据的增加而持续累积。

这个阶段，企业真正需要的是：

以对象存储，例如 S3，作为基础层和底层检索层：持久化、始终完整规模在线，所有计算都从这一层读取数据
一个 Vector Lakebase：数据不移动，计算按工作负载启动
为不同工作负载匹配合适的计算层级

四、企业级规模：信任本身成为产品能力的重点

这个阶段最常见的误区是：团队仍然以为自己面对的是一个技术问题。

他们已经优化了基础设施，也控制住了成本，于是自然会认为，走向企业级市场只是继续扩容，再补上一些安全能力。

但事实并不是这样。

真正阻碍打企业级客户的问题，往往和性能无关：

我的数据和其他客户的数据是否物理或逻辑隔离？
Access control怎么做？谁访问过哪些数据，能不能证明？
你能在我们的地区提供服务吗？
你们能部署到我们自己的云账号里吗？

第三阶段，企业面临的异构问题还只是技术层面的：不同工作负载，需要不同计算层级。

但到了如今的第四阶段，异构的来源变成了你的不同客户结构：免费用户，他们需要的是成本高效的共享服务；付费个人客户，他们期望更好的可用性；企业客户，他们要求完整的数据隔离、专属计算资源，以及一切都可审计。而这，需要平台级数据基础设施来支撑。

如果用同一套架构服务这三类客户，要么会在免费层上花太多钱，要么会无法满足企业客户需求，甚至两种问题同时发生。

这时候，我们就该考虑为基础设施分层，匹配不同客户群体

免费用户和个人用户使用共享集群：资源池化，成本优化
企业客户使用独立集群：专属计算、专属存储、专属访问控制
对于要求部署在自己云账号内的客户，提供 BYOC（Bring Your Own Cloud）

这里要注意的是，这些都只是部署形态差异，不是架构分叉。SaaS 和 BYOC 最好使用同一套 data plane 抽象、同一套控制接口、同一套版本模型、同一套升级路径。否则团队会长期维护两套系统，两套代码库、两套部署流水线、两套运维手册，而且两套系统一定会逐渐不一致。

另外，对于超大规模的全球性客户， global cluster的建设也应该被早日提上日程。不同地区的企业客户不会接受长期单区域部署， SLA 也撑不住这种设计。如果没有一套跨云、跨区域统一的数据基础设施接口，团队就会被迫在不同环境里运营不同的数据层。实时同步会变成一个新的异构分布式系统问题，运维的复杂度也会随之不断增加。

我们之前和一些全球化经营的超级企业聊过，他们基本都有一个共性痛点：一些企业级能力，都是在后期演进中才勉强硬加进去的，有些甚至花了四个月，强行为没有数据隔离架构的infra增加隔离能力。眼前的问题是解决了，但这套系统到底有多脆弱，后续要为此付出多大的运维成本，所有人都心知肚明。

总结来说，企业级就绪不是一张清单，它是早期就应该构建好的一系列架构决策的结果。

这一阶段的企业，需要的是

一个统一的数据基础设施接口：具备跨云、跨区域一致的能力
为高可靠和多地域服务设计的 global cluster
分层服务能力：免费用户使用共享集群，企业客户使用专有集群
SaaS 和 BYOC 共用同一套架构。相同数据平面，不同部署目标。
有开放标准以及开源产品背书：在企业级规模下避免厂商锁定。

尾声

总的来说，企业的不同阶段会面临不同问题：

第一阶段，核心要解决的是速度问题；第二阶段，要解决的是架构复杂度问题；第三阶段，成本和架构成为关注重点；而第四阶段，核心是信任与平台。

几乎所有平稳走过架构演进升级的团队，他们不会频繁去问“我现在需要什么数据库？”而是已经在思考：“下一个阶段会需要什么？我今天的选择，会不会把通往未来的可能堵死？”

在第一阶段，很多团队，需要的，只是一个基础的向量数据库；但第三阶段开始，Vector Lakebase会成为所有企业必须的data infra，它具备统一的存储底座，能让你用一个平台、一套架构下支撑不同的工作负载；并匹配付费、免费、企业级场景的不同客户类型。

而顺利走最后阶段的团队，有时候也不需要更强的资金或者顶级人才配置，只需要想清楚一件事：infra决策不是一个临时选择，是之后所有创新与业务发生的地基。

Robert Guo
Robert Guo is Co-Founder & VP of Product Management at Zilliz.

更多推荐

继续阅读

艾瑞巴蒂看过来！OSSChat 上线：融合 CVP，试用通道已开放

Langflow + Milvus，拖拉拽就能搞定的workflow教程来了

如果你想写个agent或者workflow，但是又不想在demo阶段投入太多精力去敲代码；

为什么每个重复建设AI数据pipeline的企业，都需要一个Vector Lakebase

了解 Zilliz Vector Lakebase 如何统一数据、索引与计算，减少 AI 数据 pipeline 重复建设。