- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于哈希函数的相似性检索研究-计算机科学与技术专业论文
I
I
I
I
II
II
摘 要
随着网络的飞速发展,大量文献资料的堆积,如何快速有效地获取自己需 要的文档数据,已经成为了迫切需要解决的问题之一。对于现今海量、高维的 文档数据,传统的索引和检索技术已不能满足用户快速的检索需求,于是相对 于注重综合检索结果的普通文档检索技术,提出了注重速度的哈希法快速文档 检索技术。
快速相似性检索技术是针对大规模文档数据的检索效率问题而产生的技 术,其牺牲了检索精度从而使得检索速度大幅度提高的特性在海量文档检索应 用中展现了良好的应用价值。其通过求解高维空间映射到低维空间的流形问题 从而降低文档的维数,并利用高效率的哈希技术加速检索的匹配过程,使得用 户能够快速定位自己需求的文档。
针对快速相似性检索技术在建立索引的过程中会耗费大量计算资源及未充 分考虑文档信息等问题,本文沿用语义哈希的思想,结合谱哈希索引技术,利 用 Markov 网络强化文档间关系来获得更好的高维特征降维后的内嵌子空间, 并通过剪枝技术减少索引技术中耗费的时间和空间复杂度,从而使得高维特征 索引和检索能够快速和有效得执行。
关键词:相似性检索,语义哈希,Markov 网络,laplacian 特征映射
ABSTRACT
With the rapid development of the Internet and the accumulation of a large number of documents, how to obtain the documents efficiently has become one of the urgent things to address problem. For today’s massive high-dimensional data of the document, the traditional indexing and retrieval technology can not meet the needs that users can quickly find what they want, so as opposed to focusing on an integrated search result of document retrieval, focus on the speed of the hash method for rapid document retrieval technology.
Fast similarity search technology is a technology for large-scale document data retrieval efficiently at the expense of retrieval accuracy so that the retrieval speed is greatly improved characteristics show a good value in the massive document retrieval application. By solving a high dimensional space is mapped to the low-dimensional space using manifold method, which reduces the dimensional of the documents, and use efficient hash technology to accelerate the retrieval of match process, enabling users to quickly locate the documents that they want to find.
Consider that semantic hashing method consume a large number of computing resources and not use the information between documents in the process of indexing for fast similarity search techniques, this paper follows the idea of semantic hash, combined with spectrum of hash index method and the Markov network to strengthen the relationship between documents to obtain better high-dimen
您可能关注的文档
- 基于合作博弈的制造网格的资源优化配置模型研究管理科学与工程专业论文.docx
- 基于合作博弈的EPC项目利益相关者收益分配研究管理科学与工程专业论文.docx
- 基于合作博弈对多主体系统中联盟形成的逻辑研究-逻辑学专业论文.docx
- 基于各向异性结构张量和联合显著信息的非刚性医学图像配准研究-生物医学工程专业论文.docx
- 基于合作全程视角的供应商关系管理方法与应用研究-物流工程专业论文.docx
- 基于合作博弈的供应链企业之间利益分配的研究-管理科学与工程专业论文.docx
- 基于合作博弈的行政监督实效提升对策研究-行政管理专业论文.docx
- 基于合作博弈的硫化车间生产调度研究-计算机科学与技术专业论文.docx
- 基于合作博弈的预付条件下应急物资库存模型的构建-管理科学与工程专业论文.docx
- 基于合作博弈的P2P内容分发技术的设计和分析-计算机应用技术专业论文.docx
- 基于哈佛框架的哈药股份财务报表分析-会计专业论文.docx
- 基于哈尔滨市城市总体规划的供水系统优化研究-建筑与土木工程专业论文.docx
- 基于和谐管理的关系价值理论与实证研究-企业管理专业论文.docx
- 基于哈佛分析框架下的河南安彩高科财务分析-会计学专业论文.docx
- 基于哈希技术的时间序列近似查询研究-计算机应用技术专业论文.docx
- 基于哈尔滨师范大学斯拉夫语学院汉语网页俄译的实践报告-翻译专业论文.docx
- 基于哈希的快速多标记学习算法研究-通信与信息系统专业论文.docx
- 基于哈特莱变换的快速模板互相关算法设计-模式识别与智能系统专业论文.docx
- 基于哼唱搜索的音乐检索系统分析-控制理论与控制工程专业论文.docx
- 基于哈希算法的图像检索系统-电子与通信工程专业论文.docx
最近下载
- 甲骨文与青铜器课件.ppt VIP
- 《2025年CSCO宫颈癌诊疗指南》更新要点解读PPT课件.pptx VIP
- 《分数乘除混合运算》示范公开课教学设计【青岛版小学六年级数学上册】.pdf VIP
- 部编版11.一块奶酪 教学设计教案 三年级语文上册(带板书设计、教学反思)3.docx VIP
- 静脉采血技术操作规范2025版.docx VIP
- 最全的日语汽车词汇汇总.docx VIP
- 护理组织管理体系与职责分工..doc VIP
- 2025食品生产通用卫生规范年GB14881试题及参考答案.docx VIP
- 屈光手术科普知识.pptx VIP
- 2025年高考数学全国新课标Ⅰ卷试卷评析及备考策略(课件).pptx VIP
文档评论(0)