腾讯大数据基于 StarRocks 的向量检索探索 - 2024 StarRocks峰会.pdf

下载文档

3
0
约1.74万字
约 36页
2025-01-11 发布于广西
举报
版权申诉
保障服务

腾讯大数据基于 StarRocks 的向量检索探索 - 2024 StarRocks峰会.pdf

1、本文档共36页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于StarRocks的向

量检索探索

——腾讯大数据

赵裕隆

腾讯大数据研发工程师

向量检索技术浅析

StarRocks实现向量检索的原理及优化

StarRocks向量检索在腾讯的实践案例

挑战及未来规划

向量检索技术浅析

什么是向量检索

向量检索

•新型应用不断涌现：听歌识曲、以图搜

图、广告推荐、大模型检索增强等等；

•Embedding技术的成熟：大量非结构化

数据（视频、语音、图像等）可以通过

深度学习技术转化成高维向量（数组）；

•统一数据特征表达：将非结构化数据

Embedding后，对高维特征向量进行最

近邻（或k近邻）查询即可查找相似内

容：给定查询向量，在特征数据库中寻

找距离查询向量最近（即相似度最高）

的k个向量；

-get_topN(distance),id

-id,metrics_distance(query_vector,vector_column):distance

-scan_table(id,vector_column)

近似最近邻查询

维度灾难高维空间的向量很难进行快速而准确的近邻查询，主要原因在于：

•高维度导致的计算复杂性：数据维度较高，通用的距离函数都需要成百上千次浮点运

算，十分耗时；

•维度灾难（CurseofDimensionality）：随着维度的增大，搜索空间将呈指数增长的现

象；

•为了解决高维向量KNN查询的效率问题，近似最近邻查询（ApproximateNearestNeighborSearch,ANNS）应运而生，其通过返回近似查询结果，来显著提升查询

效率（通常为数百倍以上）。

•目前ANNS使用的最常见的是距离度量是欧式距离和余弦距离。

•通常使用召回率（Recall）来衡量ANNS的查询精度，即近似查询结果中正确答案占实际正确答案的比例。

近邻索引技术

•哈希/树：用于ANNS的哈希方法主要是局部敏各索引技术对比

感哈希；树索引的基本思路是对空间进行划分，

并采用树型结构维护空间划分的层次关系。

•量化与倒排（主流）：乘积量化（Product

Quantization，PQ）先把向量分为多个子段，

然后对每段进行分别聚类与编码。量化是一种压

缩技术，虽然能够极大的减少存储空间占用和距

离计算开销，但是仍然要对全量数据进行距离排

序，没有剪枝作用，所以通常需要配合倒排索引

技术（InvertedFile，IVF），求取TopK个聚

类中心的进行剪枝，进一步减少访问的数据量。

•近邻图（主流）：近邻图的基本思想是“近邻的

近邻也是近邻”，其将每个向量作为图中的一个

Node，在距离相近的向量之间建立边连接构成近

邻图。查询时从固定入口出发，不断地贪心遍历

离查询向量更近的邻节点，直到没有更近的节点

停止搜索。

业务背景

•业务场景：一个典型检索场景

•检索链路复杂：一次检索经过四套系统

•写入链路复杂：写入维护三条链路

•端到端延迟高：端到端分钟级延迟

•数据一致性保障

•业务诉求

您可能关注的文档

文档评论（0）

优选文档 + 关注: 实名认证

内容提供者

专注于发布优质文档，喜欢的可以关注一下哦~

咨询Ta 进入空间

1亿VIP精品文档

更多 >

腾讯大数据基于 StarRocks 的向量检索探索 - 2024 StarRocks峰会.pdf