关于动态高维数据学习索引的成本与收益:扩展版本-计算机科学-学习索引-动态数据集-最近邻搜索.pdf

关于动态高维数据学习索引的成本与收益:扩展版本-计算机科学-学习索引-动态数据集-最近邻搜索.pdf

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

关于动态高维数据学习索引的成本与收益:扩展版本

TeréziaSlanináková[0000-0003-0502-1145],Jaroslav

Olha[0000-0003-1824-468X],DavidProcházka[0009-0000-2765-8329],

MatejAntol[0000-0002-1380-5647],andVlastislav

Dohnal[0000-0001-7768-7435]

FacultyofInformatics,MasarykUniversity,Brno,Czechia

InstituteofComputerScience,MasarykUniversity,Brno,Czechia

本摘要在快速增长的学习索引研究领域中,主要挑战之一是缺乏对动态扩

译展数据集的适应性。本文探讨了通过节点分割和拓宽等操作使静态学习索

中引复杂化的方法,从而能够有效地适应新数据。此外,我们引入了一种分

摊成本模型来评估查询性能与索引结构构建成本之间的权衡关系,从而使

1实验确定在何种情况下动态学习索引优于其静态对应物成为可能。我们将

v

5动态化方法应用于静态学习索引,并证明随着数据库的增长,其优越的扩

6展性迅速超越了静态实现的整体成本。这是在DAWAK2025会议上发表

8论文的扩展版本。

5

0

7.Keywords:学习索引·动态化·动态数据集·k-近似最近邻搜索·近

0似最近邻搜索

5

2

:

v1介绍

i

x

r适应动态扩展的数据集的问题在许多索引方法中仍然是一个挑战。例

a

如,最近在索引方面的许多进展涉及机器学习模型,导致出现了一个新的专

业研究领域,称为学习索引。一旦训练完成,机器学习模型通常无法在不丢

失先前知识的情况下用新数据或分类类别进行更新,通常需要进行全面重新

训练。

尽管存在这一限制,学习索引已经在索引结构化、低维数据集[6,15,38]

方面证明了其成功,并且在复杂数据的索引和检索中继续获得认可[1,8,13,

16,17]。然而,当涉及到索引复杂、高维数据时,模型也往往会变得更加

复杂[17]。

假设学习模型正在以比传统索引方法更高效的方式建模复杂数据分布

是合理的,这引发了在这一转变过程中索引专家未来角色的问题。一种选择

2T.Slaninákováetal.

是让索引专家发展机器学习专业知识,并设计更好地支持动态学习并有效管

理复杂数据的模型。另一个更加可行的选择——尽管不相互排斥的是将索引

问题与核心机器学习挑战分开处理,在更高的抽象层次上改进学习索引方

法。这种做法类似于索引研究很少关心存储介质的物理特性,把那些较低层

次的抽象留给存储系统工程师。

本文专注于后一种方法,提出了一种动态化方法,能够将复杂高维数据

的静态学习索引结构转换为动态的一种。这是通过广义节点分裂和节点扩展

操作以及一套简单规则的应

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档