数据依赖的多索引哈希算法_马艳萍_姬光荣_邹海林_谢洪涛.pdfVIP

下载本文档

9
0
约2.11万字
约 7页
2017-06-10 发布于河南
举报
版权申诉

数据依赖的多索引哈希算法_马艳萍_姬光荣_邹海林_谢洪涛.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据依赖的多索引哈希算法_马艳萍_姬光荣_邹海林_谢洪涛

2015 年 8 月西安电子科技大学学报（自然科学版） Aug.2015 第 42 卷第 4 期 JOURNAL OF XIDIAN UNIVERSITY Vol.42 No.4 doi：10.3969/j.issn.1001-2400.2015.04.026 数据依赖的多索引哈希算法 1,2 1 2 3 马艳萍，姬光荣，邹海林，谢洪涛 (1. 中国海洋大学信息科学与工程学院，山东青岛 266100； 2．鲁东大学信息与电气工程学院，山东烟台 264025 3．中国科学院信息工程研究所信息内容安全技术国家工程实验室，北京，100093) 摘要：多索引哈希是目前使用最广泛的针对二进制码的索引算法. 由于多索引哈希基于数据集中的二进制码呈均匀分布这一假设，不能有效处理非均匀分布的数据集. 针对这一问题，提出数据依赖的多索引哈希算法. 首先把二进制码划分为多个连续不重合的子串，并通过计算二进制码每位之间的相关性为每一个子串学习得到自适应投影向量. 在为每个子串建立哈希表时，使用投影向量对子串进行投影从而得到哈希表中的下标. 采用自适应投影的方法可以使得哈希表中的元素接近于均匀分布，进而提升查询速度. 此外，提出一个基于熵的分布度量方法，以评价哈希表中数据元素的分布情况. 在大规模数据集上的实验表明，与多索引哈希算法相比数据依赖的多索引哈希算法可以使查询速度提升36.9%–87.4%. 关键词：最近邻查询；二进制码；索引；多索引哈希中图分类号：TP183 文献标识码：A 文章编号：1001-2400(2015)04-0177-07 Data-oriented multi-index Hashing 1,2 1 2 3 MA Yanping , JI Guangrong , ZOU Hailin , XIE Hongtao 1 ( School of Information Science and Engineering, Ocean University of China, Qingdao, 266100 2 Scholol of Information and Electrical Engineering, Ludong University, Yantai, 264025 3 Institute of Information Engineering, Chinese Academy of Sciences, Beijing, 100093) Abstract: Multi-index hashing (MIH) is the state-of-the-art method for indexing binary codes. However, MIH is based on the dataset codes uniform distribution assumption, and will lose efficiency in