基于哈希函数的相似性检索研究-计算机科学与技术专业论文.docxVIP

基于哈希函数的相似性检索研究-计算机科学与技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于哈希函数的相似性检索研究-计算机科学与技术专业论文

I I I I II II 摘 要 随着网络的飞速发展,大量文献资料的堆积,如何快速有效地获取自己需 要的文档数据,已经成为了迫切需要解决的问题之一。对于现今海量、高维的 文档数据,传统的索引和检索技术已不能满足用户快速的检索需求,于是相对 于注重综合检索结果的普通文档检索技术,提出了注重速度的哈希法快速文档 检索技术。 快速相似性检索技术是针对大规模文档数据的检索效率问题而产生的技 术,其牺牲了检索精度从而使得检索速度大幅度提高的特性在海量文档检索应 用中展现了良好的应用价值。其通过求解高维空间映射到低维空间的流形问题 从而降低文档的维数,并利用高效率的哈希技术加速检索的匹配过程,使得用 户能够快速定位自己需求的文档。 针对快速相似性检索技术在建立索引的过程中会耗费大量计算资源及未充 分考虑文档信息等问题,本文沿用语义哈希的思想,结合谱哈希索引技术,利 用 Markov 网络强化文档间关系来获得更好的高维特征降维后的内嵌子空间, 并通过剪枝技术减少索引技术中耗费的时间和空间复杂度,从而使得高维特征 索引和检索能够快速和有效得执行。 关键词:相似性检索,语义哈希,Markov 网络,laplacian 特征映射 ABSTRACT With the rapid development of the Internet and the accumulation of a large number of documents, how to obtain the documents efficiently has become one of the urgent things to address problem. For today’s massive high-dimensional data of the document, the traditional indexing and retrieval technology can not meet the needs that users can quickly find what they want, so as opposed to focusing on an integrated search result of document retrieval, focus on the speed of the hash method for rapid document retrieval technology. Fast similarity search technology is a technology for large-scale document data retrieval efficiently at the expense of retrieval accuracy so that the retrieval speed is greatly improved characteristics show a good value in the massive document retrieval application. By solving a high dimensional space is mapped to the low-dimensional space using manifold method, which reduces the dimensional of the documents, and use efficient hash technology to accelerate the retrieval of match process, enabling users to quickly locate the documents that they want to find. Consider that semantic hashing method consume a large number of computing resources and not use the information between documents in the process of indexing for fast similarity search techniques, this paper follows the idea of semantic hash, combined with spectrum of hash index method and the Markov network to strengthen the relationship between documents to obtain better high-dimen

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档