高维索引技术中向量近似方法研究计算机应用技术专业论文.docxVIP

高维索引技术中向量近似方法研究计算机应用技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高维索引技术中向量近似方法研究计算机应用技术专业论文

摘要摘要 摘要 摘要 基于内容的图像检索已经成为图像数据库的一项重要应用。高维数据索引是 加速图像相似性检索的关键技术之一,也是多媒体和数据库领域的研究热点和难 点。传统的多维索引技术在高维情况下会受到“维数灾难”现象的影响,在维数 足够高的情况下(超过几十维),其检索性能会退化到最原始的顺序查找方法,研 究有效的高维索引机制是使面向大规模数据库的检索达到实时性要求的关键。除 了多媒体对象的相似性检索外,高维索引技术也可应用于其他相关领域,如数据 挖掘、模式识别、机器学习、数据统计和分析等。 本文在介绍维数灾难现象的基础上,系统地综述了高维索引技术的研究现状 和发展趋势。向量近似方法是一种有效的高维索引技术,在高维情况下,其检索 性能仍优于顺序查找方法,目前对高维索引技术的研究大部分都是在该方法的基 础上进行。本文主要面向大规模图像数据库上k近邻搜索应用,在向量近似方法的 基础上,开展对高维索引技术的研究。本论文的主要创新性成果如下所述: 1.向量近似方法是一种基于压缩技术的索引方法,该方法需要顺序访问所有 的近似向量才能完成搜索过程。提出了一种基于主分量排序的新型索引方法,只 要顺序访问部分近似向量即可完成搜索过程。首先在正交变换域上建立近似向量, 选择变换域能量最大的分量作为主分量,根据主分量值对近似向量进行顺序排列, 并且用B+树存储每个数据页面中的主分量值的范围。在k近邻搜索过程中,采用 变换域部分失真搜索算法,从初始访问数据页面开始在升序和降序两个方向上顺 序访问近似向量。除了欧氏距离外,本文还将新的索引方法扩展到了二次式距离 和绝对值距离。对于二次式距离,使用奇异值分解技术对向量进行变换。对于绝 对值距离,提出了一种相邻元素相加的多分辨率数据结构。实验结果表明,该索 引方法能够在保持顺序访问方式的基础上,减少近似向量访问数量,提高检索性 能。 2.提出了一种用R树组织近似向量的新型索引结构--PCR树。在正交变换域 上建立近似向量,选择变换域能量最大的多维分量作为主分量,采用R树来组织 主分量上的近似向量。在k近邻搜索过程中,采用了新的低维过滤算法来剪枝PCR 树中的目录节点。主分量维数的选取对PCR树的索引能力影响很大,选取的主分 量维数越少,能量损失越大,过滤效率越低,FO开销会增大;选取的主分量维数 越多,过滤效率越高,但是索引结构又会受到维数灾难现象的影响。实验结果表 明,在PCR树中,访问很少的近似向量即可完成搜索过程,从而大幅度降低了搜 索过程中的CPU运算开销。 西安电子科技大学博士学位论文 高维索引技术中向量近似方法研究3.提出一种基于矢量量化技术的索引方法。从量化技术角度来看,近似向量 高维索引技术中向量近似方法研究 3.提出一种基于矢量量化技术的索引方法。从量化技术角度来看,近似向量 的生成实际上采用了标量量化方法,与标量量化相比,矢量量化能够提供更高的 压缩率,采用矢量量化技术生成近似向量,可以进一步降低近似向量的长度,从 而降低近似文件的存储容量。对特征向量进行矢量量化后,量化码字就是其近似 向量。采用超球来组织矢量量化后胞腔中的数据,根据近似向量可以计算特征向 量与查询向量之间的距离上、下界。为解决矢量量化过程中码字数目过大以及复 杂度过高的问题,采用乘积矢量量化器来生成码书。实验结果表明,该方法能够 在保证过滤效率的基础上,降低近似向量文件的长度,降低搜索过程中的I/O代价, 从而提高搜索性能。 4.探讨了向量近似方法在相关反馈技术中的应用,相关反馈技术中一个很重 要的特性就是在反馈过程中特征向量的表示和相似性度量方式都会发生变化。介 绍了二次式距离和核函数距离上的向量近似方法,并且提出了改进的近邻搜索算 法。反馈过程中相邻两次查询结果具有一定的相关性,改进算法在查询过程中利 用了反馈信息和上轮次的查询结果,可以提高向量近似方法的过滤性能,从而提 高搜索速度。 5.在基于低层特征的图像检索应用中,精确检索得到的结果并不具有精确含 义,最近几年人们提出了近似检索的概念。从索引技术角度来看,近似检索技术 是克服维数灾难现象的一种有效手段。针对本文提出的多种精确索引结构,分别 提出相应的近似近邻搜索算法。(1)对于顺序访问方式的向量近似方法,采用访问 部分数据集的近似查询方法。(2)对于基于矢量量化的近似索引方法,提出了用倒 排文件组织近似向量的索引结构和搜索算法,新算法能够大幅度降低CPU运算开 销,并且只用一次I/O即可完成最近邻查询过程,但是改进算法不能用于多级乘积 矢量量化。(3)对于PCR树索引结构,改变了索引结构的构建方法,提出了相应 的近似近邻搜索算法。实验表明,近似检索方法可以在不显著降低检索结果的准 确率的情况下,大幅度提高搜索效率。 关键词:高维索引,基于内容的图像检索,维

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档