Milvus × 百易图:霸榜中东的 APP 是如何炼成的
虎口拔牙,百易图新应用 JACO 登顶中东 APP 榜单
在中东市场的互娱领域,一家中国公司正悄然崛起,百易图,连续打造沙特爆款“第一” ,是曾在中东多次拿下 Top1 的 Beeto(后更名为 Hektar)的开发者,去年6月推出的综合性娱乐应用-JACO 集结了直播、短视频、社交等多种功能。同时,Jaco 还提供了丰富的内容创作工具,让用户能够轻松创作出具有个人特色的短视频,分享给更多的人。
今年11月份,JACO 再次成为登上沙特总榜 Top1 的 App。JACO 能够虎口拔牙,在中东世界干翻 tiktok,秘诀值得一探究竟。
分析 JACO 的破圈之路,每次百易图的产品投放都比较精准,基本不会靠批量投放的“刷量”战术取胜。可以说,JACO深谙“推荐、去重”之道。
主要场景:
截至2024年11月,JACO 移动端的日活用户已突破百万,海量用户会创作或者搬运巨量的视频上传到平台。而高质量的内容和精准的推荐是JACO能够致胜的法宝之一。
要达到“高质量”、“精准推荐”的目的,系统需要对视频中相似度非常高的内容进行淘汰,一方面大量降低系统存储成本,一方面达到后续推荐优质内容的目的。
而Milvus 是一款专为大规模向量数据设计的分布式搜索引擎,支持PB级的数据存储与毫秒级检索的用户体验。它提供了灵活的API接口,便于开发者集成到现有系统中,实现高效的向量相似性搜索。
短视频去重
接下来,我们介绍JACO如何使用 Milvus 进行短视频去重工作的整体业务流程。整体来看,从原始视频上传JACO平台到短视频去重,共有以下步骤:
JACO平台上新增的视频会被实时写入 OSS。经过平台的内容策略,低质的视频会直接被过滤掉;
过滤后保留的视频会进入待推荐内容底库,这些视频内容会使用深度学习模型进行视频特征提取,将每条视频转化为 128 维的结构化数据(特征向量);
Embedding后的数据存到 Milvus 里面,待新的数据来了之后,根据向量的相似度去把一些相似的视频召回过来之后去在推荐系统里面用。系统将特征向量打包后发送至视频相似度审核程序。
个性化视频推荐
当优质视频去重进入推荐视频库,系统根据用户喜好,使用Milvus进行个性化推荐,具体有以下步骤:
系统会记录每个用户7天内容最多200个喜欢的视频;
对视频进行embedding之后与去重后的视频底库进行相似性检索比对;
凭借Milvus的出色性能,我们搭建的搜索推荐系统能够高效地查询出与每个目标向量相似的TopK个向量。
相应地,200个视频就对应招呼 对召回的 200*TopK 个视频,系统再采用对应的算法对这些视频进行rerank。
相似音频推荐
拍同款是JACO短视频平台另外一个极受欢迎的业务。如何将相似的魔性音乐或者节奏对应的视频推荐到用户,是Milvus搜索推荐另外一个发挥作用的地方。
将平台受欢迎的魔性音乐或者拍同框视频中的音乐特征提取后进行embedding,结构化的数据存在Milvus向量数据库中;
经过Milvus相似性查询到相似audio list,将已经用了同一款音乐对应的这些所有的视频聚到一个video list 进行召回;
将用户实时观看的视频音乐特征进行embedding,结构化的数据从audio list 中的数据进行相似性查询,将对应的聚在一起的视频推给用户。
文本推荐召回
在JACO短视频平台中,MIlvus的文本语义检索能力为个性化内容推荐提供强大支撑。
系统分析视频标题、描述等元数据,同时深入理解视频语音转文字内容及画面语义,这些文字embedding后存在Milvus中;
综合用户行为数据构建个性化推荐模型,根据搜索到的文本召回对应视频,推荐到用户。
通过视频、音频、文本等多种搜索推荐系统,JACO更懂用户的即时情绪与长期兴趣偏好。
为什么选择Milvus?
百易图的算法工程师卢工聊到在上一家公司的时候使用的是Faiss,那时候就已经关注到了Milvus,来到新公司后就顺理成章得运用了Milvus,究其原因,相比于Faiss,主要在于:
易用性强,支持离在线一体化
JACO巨量的存量视频embedding及相似性比对和聚类分析,及用户历史7日的观看视频通常采用离线处理,而对新进入的视频及用户实时观看的新视频则需要实时处理。使用Faiss的话,从离线到在在线实时向量检索的话,需要做二次开发,部署一个向量检索服务。
Milvus 支持离在线一体化能力,巧妙地融合了离线数据处理和在线实时查询功能,使用户能够无缝集成和处理大规模向量数据。无论是批量导入历史数据、构建高效索引,还是实时插入新数据和快速检索,Milvus都能确保数据处理的一致性和查询的即时性。其统一的架构设计简化了开发流程,灵活的部署选项和强大的监控工具使得Milvus成为企业处理多维数据和实现即时搜索的理想选择。因此非常适合JACO的业务场景。
强大的社区支持:
Milvus 拥有一个活跃的开源社区,提供丰富的文档、教程和社区支持。我们在Milvus的部署及应用过程中,多次与MIlvus社区进行沟通并获得了企业级的支持服务,对商业客户来说这点极有价值。
未来探索
高质量的内容推荐是 JACO 能迅速占领中东市场的关键,未来,JACO将会走向多模态融合检索推荐,即整合文本、图像、音频等多种信息源,为用户提供全方位的视频检索服务。Milvus也会将在多模态领域中的新技术与JACO进行结合,共同探索。
技术干货
LangChain 查询使用指「北」
LangChain 是一种 AI 代理工具,可以为以 ChatGPT 为代表的额大语言模型(LLM)增添更多功能。此外,LangChain 还具备 token 和上下文管理功能。本文主要通过查询 GPT 和查询文档两个示例介绍如何使用 LangChain。
2023-5-30技术干货
Milvus Lite 已交卷!轻量版 Milvus,主打就是一个轻便、无负担
总体而言,无论用户是何种身份(研究人员、开发者或者数据科学家),Milvus Lite 都是一个不错的选择,尤其对于那些想要在受限的环境中使用 Milvus 功能的用户而言,更是如此。
2023-6-8技术干货
一次解决三大成本问题,升级后的 Zilliz Cloud 如何造福 AIGC 开发者?
对于应用开发而言,成本问题向来是企业和开发者关注的重点,更迭迅速、变化莫测的 AIGC 时代更是如此。这里的成本既指软件开发成本,也包括硬件成本、维护成本。Zilliz Cloud 可以一次性解决这三大问题,帮助开发者降低开发成本、优化硬件成本、减少维护成本。
2023-7-6