- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
摘要
数字经济时代,大数据、云计算、移动互联网等新一代的技术催生出了海
量的图像、视频、文本等非结构化数据。为了检索这些非结构化数据,通常使
用深度学习技术将其转换为结构化向量,再进行向量检索。现在,基于近邻图
的方法因其优秀的检索能力,成为了向量检索的主流算法。
然而,目前传统的基于近邻图的方法过于依赖内存,在大规模数据下存在
着高昂的内存成本。为了解决这一问题,当前的主流方法,如DiskANN,将高
内存占用的近邻图索引存储在固态硬盘(SSD)上,这显著降低了检索时的内存消
耗。然而,DiskANN算法未考虑实际应用中常见的高并发批查询检索场景,导
致存在大量冗余的SSD访问请求,这增加了检索时延。本文旨在优化DiskANN
的检索算法,以减少批查询场景下与SSD交互的IO时间。具体研究内容如下:
(1)基于路由阶段性特点的批查询重排算法。近邻图路由过程可以划分
为两阶段,第一阶段远端路由逼近以及第二阶段近似暴力搜索,且在搜索的第
二阶段,查询范围基本位于图中的强连通分量(SCC)中。针对这一特性,本文采
用了两个策略减少IO次数:1.提出了基于SCC相似性的批查询聚类算法,从而
提高了第二阶段访问SSD数据的复用性,减少了IO次数;2.本文通过缓存策略,
优化查询的入口点,进一步减少第一阶段路由过程中不确定随机IO读取的次数。
(2)针对“长尾效应”的多队列动态调度策略。在批查询场景下,现有
算法存在由“长尾效应”导致的平均IO时间增加的问题。具体地,为了实现足
够高的搜索精度,近邻图批查询中少数查询需要占用很长的IO处理时间。在目
前单队列的读取策略下,此类查询会增加后续查询的等待时间,从而影响了平
均IO时间。针对以上问题,本文提出了多队列动态调度策略,其依赖于两个关
键修改:1.通过使用多队列而非单队列,降低了长尾IO对整体IO时间的影响;
2.本文根据队列长度最短原则对查询进行调度分配,降低了平均IO时间。
(3)基于区域特征的搜索提前终止机制。现有方法中查询终止策略固定,
不能根据查询分布自适应终止,易受“长尾效应”影响而导致冗余计算。针对
这个问题,本文提出了基于区域特征的搜索提前终止策略,通过查询过程中的
区域特征以预测剩余搜索步骤数量,从而实现动态搜索终止并减少冗余开销。
基于上述成果,本文设计实现了一个图片向量检索系统,并完成了亿级规
模图片的检索应用,验证了本文算法在大规模数据场景下的检索效率和有效性。
关键词:向量检索,固态硬盘,查询重排,多队列,提前终止
ABSTRACT
Intheeraofdigitaleconomy,new-generationtechnologiessuchasbigdata,cloud
computing,andmobileInternethavespawnedmassiveamountsofunstructureddata
suchasimages,videos,andtexts.Inordertoretrievetheseunstructureddata,deep
learningtechniquesareusuallyusedtoconvertthemintostructuredvectors,andthen
performvectorretrieval.Now,themethodbasedonthenearestneighborgraphhas
becomethemainstreamalgorithmofvectorretrievalbecauseofitsexcellentretrieval
ability.
However,thecurrenttraditionalneighborgraph-basedmethodsrelytoomuchon
memory,andthereisahighmemorycostinlarge-scaledata.Tosolvethisproblem,
currentmainstreammethods,suchasDiskANN,storethememory-int
您可能关注的文档
- 基于自学习边缘结构分类的椒盐噪声去除算法研究.pdf
- 基于纵向时间动态增强影像深度分析的乳腺癌新辅助化疗疗效预测研究.pdf
- 极化密度与电路基板的高频及导热性能的研究.pdf
- 家庭智能种植平台及装置研究与设计.pdf
- 介质谐振器天线及吸收式频率选择表面天线罩应用研究.pdf
- 经济政策不确定性、金融发展与企业投资.pdf
- 局部有源忆阻器件的建模及应用.pdf
- 具有血管闭合功能的高频电刀系统研制.pdf
- 考虑不完美维修的加速退化设备视情维修策略研究.pdf
- 空气中液滴的激光悬浮稳定性及其在外场作用下的失稳特性研究.pdf
- 江西省南昌市莲塘一中2026届高二化学第一学期期中监测模拟试题含解析.doc
- 福建省华安中学2026届九年级英语第一学期期末学业质量监测试题含解析.doc
- 山东省山东省滕州市第二中学2026届高三化学第一学期期末联考模拟试题含解析.doc
- 福建省石狮七中学2026届九年级英语第一学期期末调研模拟试题含解析.doc
- 安徽省合肥市合肥一中、合肥六中2026届高三上化学期中达标检测试题含解析.doc
- 四川省自贡市富顺第三中学2026届九上化学期中质量检测试题含解析.doc
- 2026届湖北省襄阳第四中学化学高三第一学期期中检测试题含解析.doc
- 图形平移与轴对称问题及例题汇编.pdf
- 吸烟管控措施探讨与观点分析.pdf
- 人教版八年级下册英语第十单元检测题.pdf
原创力文档


文档评论(0)