基于分散分配的非对称距离倒排索引机制研究.docVIP

下载本文档

0
0
约3.65千字
约 6页
2017-08-24 发布于北京
举报
版权申诉

基于分散分配的非对称距离倒排索引机制研究.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于分散分配的非对称距离倒排索引机制研究　　摘要随着计算机多媒体技术的快速发展，基于图像内容的检索逐渐成为了热点的研究问题。图像的特征描述和特征索引机制的建立是实现基于内容图像检索的关键。根据图像局部特征向量与聚类中心的相对距离，建立非对称距离计算倒排索引机制。为了进一步提高查询效率，本文将可能落入多条哈希链表中的数据库向量进行多次编码，实现了基于分散分配的非对称距离计算倒排索引机制。通过实验可以发现，这种索引机制可以有效的提升查询效率。　　【关键词】倒排索引非对称距离计算分散分配　　1 引言　　如今，针对规模巨大的影像数据集，一般的检索系统分为三个基础步骤：特征提取、高维索引机制和检索系统设计，而高维索引机制是快速、精确检索的核心，高维索引结构的构建也是影像数据进行建库和检索引擎模块建立的重点。从数据库里提取出来的数据特征表现为分散的、无序的向量，通过建立多维索引结构将这些特征向量进行有规律的存储，其中索引结构的设计是重点。一般，高维索引结构主要分三类：基于树的索引（tree-based index），基于哈希的索引（ hashing-based index）和基于视觉词的倒排索引（ visual words based inverted index）方法。　　2 基于视觉词的倒排索引结构　　基于视觉词的倒排索引源于基于内容的图像检索，对于给定的图像，首先提取出局部特征，如SIFT，然后量化为视觉词，这些视觉词字典是预先在训练数据集上训练得到的。然后，用BOF描述符的高维向量生成表示图像。BOF描述符通过倒排索引文件方式进行索引，该倒排索引文件中每个条目为每个视觉词和发生该视觉词的所有图像的列表组成。描述符的构建可以基于视觉词所发生的频率计数或tf-idf方法。基于视觉词的倒排索引主要集中在视觉描述符的构造、描述符压缩编码和倒排索引结构的研究。　　在标准的基于视觉词的倒排索引结构中，每个视觉词与一个倒排的列表关联，列表中存储图像的识别和图像中发生的视觉词的频率。给定一个查询图像，转换为BOF描述符后，与查询图像中视觉词关联的倒排列表将作为检索后续结果集。如果在查询图像中有1000个视觉词发生，则需要1000个倒排列表进行检索。因此，一些粗量化（包含少量的聚类）的方法被提出来以减少检索的倒排列表数量，提供时间性能。　　非对称距离计算倒排索引机制聚合了全局量化、积量化、非对称距离计算以及倒排索引等关键技术。其中，全局量化是指在全局基础上对整个数据空间进行统一量化。量化是将原始向量经某种方法获取离散值，即用一组少量的、规定的向量来表示整个原始空间中的所有向量。k-means 方法中的聚类中心就是这样一组规定的向量，是经过训练集合均值聚类获取的中心点，目的在于使用少量有代表性的数据来表示整个数据空间。非对称距离计算是指非量化的查询向量与量化后的数据库向量之间的距离计算。使用非对称距离计算更能体现对象之间的相似度，减小量化带来的距离误差。　　非对称距离计算倒排索引机制首先使用 k-means 方法对所有的特征向量进行聚类，将数据库中的特征向量分配给聚类，即进行全局量化，然后将计算特征向量与所属聚类中心之差获得剩余向量，对所有的剩余向量进行积量化，从而获得积量化后的编码连同数据的索引标识组成哈希对，添加到对应的聚类所属的倒排索引链表中。使用 IVFADC 组织图像的聚合向量，每幅图像可用少至 20 字节的编码表示，使得海量数据库在内存中的检索成为可能。　　3 基于分散分配的非对称距离计算倒排索引机制　　在多维索引机制中，“维度灾难”会随着特征维度的增多而出现。在特征向量维度较高的情况下，传统的树型索引结构表现并不理想。维度过高时，大多数索引方法的查询性能甚至低于对原始数据进行顺序扫描的性能。高维数据检索（high-dimentional retrieval）是一个有挑战的任务。由于时间和空间的限制，将检索数据与数据库中的数据进行一对一的相似度比较是无法实现的。决定检索复杂程度的因素有两个，一是高维向量的相似度比较，二是海量的数据检索。第一个问题，可以用哈希算法对高维数据进行降维。第二个问题，可以在检索初期就排除掉一些数据来减小比较的次数。而位置敏感哈希类算法（LSH）恰好满足了这一需求。位置敏感哈希类以及建立在 BOF 基础上的倒排索引类是一种效果比较好的解决“维度灾难”的索引方法。本文介绍一种基于LSH的索引方法――基于分散分配的非对称距离计算倒排索引机制（DA-IVFADC）。　　该索引机制建立的主要过程如下：　　（1）参考支点选择，利用HF算法选择支点，用于基于距离的降维。　　HF支点选择算法，首先在数据库中选择随机的数据点A1，到距离A1最远的数据点B1，B1记为第