- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于哈希的最近邻查找-信号与信息处理专业论文
研究生优秀毕业论文
中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成
中国科学技术大学学位论文原创性声明
本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰 写过的研究成果。与我一同:J:作的M志对本研究所做的贞献均乙存论文·㈧t.j, 明确的说明。
作者签名: 篮率 签字【l J,lJ:2旦[篁:笸!乡
中国科学技术大学学位论文授权使用声明
作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中 国学位论文全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内
容相一致。
保密的学位论文在解密后也遵守此规定。
,
坷公开 口保密 二年
作者签名: 导师签名:
签字日期: 兰!l』;≤:垒 签字日期:
万方数据
摘要摘要
摘要
摘要
最近邻查找是计算机视觉和机器学习领域中的一个重要的基础性问题。近 年来,基于哈希的算法在处理最近邻查找的问题上,引起了很大的关注。其基 本思想是用紧凑的二值码表示高维数据点,并且用二值码之间的相似性近似数 据点之间在原空间的相似性。二值码表示具有存储消耗低和计算速度快的优点, 故而哈希的方法在大规模数据环境下具有很广的应用前景。
尽管哈希方法有存储和计算上的优势,但是依据二值码排序的结果依然存 在着一定的误差。这样的误差目前并没有得到很好地解决,故而本论文主要从 多个方面提升哈希方法在最近邻查找中的准确性。
一般而言,基于哈希的最近邻查找的方法包括两个阶段。第一个是哈希映 射,用于将数据点映射为二值码:第二个是针对二值码设计近似距离从而进行 排序。为了提升基于哈希的最近邻查找的准确性,本文主要从这两个方面研究 如何获得更优质的二值码和更准确的度量距离。
本文主要研究内容和创新成果如下:
1.提出序列保持哈希算法。该算法通过最大化原空间排序结果和汉明空间排 序结果之间的一致性学习哈希映射,从而提升基于汉明距离的哈希映射在 最近邻查找的准确性。数据点根据与查询点之间的汉明距离分成不同的类 别,从而可以将排序问题建模成分类问题。哈希函数通过最小化在所有训 练数据点上面的分类损失而得。该方法直接最大化最近邻查找最关注的排 序的一致性,大量的与已有基于汉明距离的哈希方法的对比实验结果表明, 序列保持哈希可以在相同的查找时间内取得更高的排序准确率。
2.提出优化的笛卡尔K均值算法。该算法用于提升基于空间量化的哈希映 射在最近邻查找的准确率。传统的方法中,码本是多个子码本的笛卡尔乘 积;而本文提出的方法采用多个这样的码本联合对数据进行编码。每一个 数据点用多个码字的和近似,而每一个码字来自不同的码本。码本通过最 小化失真误差优化而得。这样简单有效的策略不仅在实验中同时也在理论 上保证了更低的失真误差,从而提升了排序的准确性。
3.提出二值码距离优化的算法。该算法用于在二值码给定的情况下,通过距 离优化的方式提升最近邻查找的准确率。具体而言,由于二值码取值范围 的有限性,本文通过一个非参数的查询表存储查询点到每一个二值码之间 的距离。为了解决可能带来的存储空间大的问题,本文将二值码分成多个 子码,每一个子码生成一个与查询相关的较小的距离查询表,近似距离定 义为多个子表对应的表项的和。查询表中的元素值通过最小化近似距离和 原真实距离的误差而得。该思想成功应用到对称的二值码之间的距离以及
T
万方数据
摘要非对称的查询点与数据库二值码之间的距离中。由于理论上保证了更准确
摘要
非对称的查询点与数据库二值码之间的距离中。由于理论上保证了更准确 的近似距离,大量的实验表明了对距离的优化可以很大幅度提升基于哈希 的最近邻查找的准确率。
综上,本文从如何获得二值码以及如何设计针对二值码距离两个方面,提 出三个新颖算法,用于提升基于哈希的最近邻查找的准确性。理论证明和大量 实验结果表明了所提出方法相对于已有方法的优越性。
关键词: 最近邻查找,哈希映射,序列保持哈希,优化的笛卡尔K均值,距 离优化
万方数据
ABSTRACTABSTRACT
ABSTRACT
ABSTRACT
RecentlN hashing—based algorithms have attracted lots of attention to deal with the nearest neighbor search,which is fundamentally important prob
您可能关注的文档
- 基于合作研发组织下的隐性契约稳定性研究-国际贸易学专业论文.docx
- 基于合作网络的产业集群技术创新研究管理科学与工程专业论文.docx
- 基于合作竞争的合作剩余研究-产业经济学专业论文.docx
- 基于合同体系比较的国际工程业主方合同选择研究-管理科学与工程专业论文.docx
- 基于合作竞争的中国物流市场整合模式探究-物流工程专业论文.docx
- 基于合同体系比较的国际工程业主方合同选择研究管理科学与工程专业论文.docx
- 基于合作网络的虚拟企业构建关键问题研究-管理科学与工程专业论文.docx
- 基于合同网协议的多Agent+协作技术研究-计算机软件与理论专业论文.docx
- 基于合力场论综合模型的移位算法研究-地理学;地图学与地理信息系统专业论文.docx
- 基于合同网的协同生产任务调度软件模型研究-计算机软件与理论专业论文.docx
- 基于回复式反射和近场聚焦的无线能量传输系统设计-电磁场与微波技术专业论文.docx
- 基于回声状态网络的非线性时间序列预测方法研究-计算机科学与技术专业论文.docx
- 基于回归分析方法的INMS项目成本估算模型研究-项目管理专业论文.docx
- 基于回归分析的VoIP语音质量客观评估模型-信息与通信工程专业论文.docx
- 基于回归分析法的顺倾向岩质边坡稳定性研究-防灾减灾工程及防护工程专业论文.docx
- 基于回归分析的个性化教学分析-课程与教学论专业论文.docx
- 基于回归分析的音乐情感分类系统-信号与信息处理专业论文.docx
- 基于回弹控制的提高轿车冲压件成形精度方法研究-车辆工程专业论文.docx
- 基于回归分析的个性化教学研究-课程与教学论专业论文.docx
- 基于回归神经网络方法的孤立词语音识别-通信与信息系统专业论文.docx
文档评论(0)