- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
集中式环境下局部敏感哈希算法综述
集中式环境下局部敏感哈希算法综述
【摘要】局部敏感哈希算法是一种很流行的高维相似性查找算法。通过总结多篇已发表论文,介绍了集中式环境下的局部敏感哈希算法及其实现,分析了各种局部敏感哈希算法的特点和优缺点。在近似最近邻查询中的广泛应用证实了局部敏感哈希算法的有效性。
【关键词】高维数据相似性搜索KNN查询局部敏感哈希算法
doi:10.3969/j.issn.1006-1010.2015.10.000 中图分类号:TP391文献标识码:A 文章编号:1006-1010(2015)10-0000-00
[Abstract] Locality sensitive hashing is a very popular high dimensional similarity search algorithm. LSH algorithm and its implementation in centralized environment were introduced. Features, advantages and disadvantages of LSH algorithm were analyzed by summarizing several published papers. LSH algorithm was proved to be effective in widespread applications of approximate nearest neighbor query.
[Key words] high dimensional data similarity search KNN query locality sensitive hashing (LSH)
1 引言
近年来,随着互联网的快速发展,产生的数据数以万计。如何从庞大的数据中挖掘出有用的信息,显得尤为重要。如在图像数据库中寻找内容相似或者语意相关的图像。相似性查询算法的研究成为众多研究者研究的内容,是一个很有意义的研究方向。
在解决最近邻查询问题中,经常用到的方法有传统的基于树(如k-d tree等)的空间划分算法。这些传统的方法在数据维度较低时性能良好,然而在维度超过10以后,算法的性能会迅速下降,有时甚至不如暴力算法。为解决高维数据问题,有人提出可以使用精度来换效率。这样把求最近邻问题转化为求近似最近邻查询问题。
局部敏感哈希算法(LSH,Locality Sensitive Hashing)是一种流行的近似最近邻查询算法。它在高维空间中有优异的表现,能够克服维灾,且算法的精度和效率能够满足应用需求。因而在许多应用中都有使用,其中有图像、视频、音频和DNA序列等相似性查询。
关于它的研究已有很多年的历史,除了LSH的应用,很多研究者也对LSH算法进行了改进,本文将主要介绍集中式下的LSH算法及其改进。
2研究现状
与基于空间划分的算法相比,LSH克服了维度灾难,能够应用在高维数据集中,性能也有所提高,因此应用的比较广泛。下面介绍集中式环境下它的发展历程。
2.1最原始的LSH
LSH是一种概率方法,它的核心是距离近的点哈希到同一桶中的概率会比距离远的点的概率大。通过这样的处理方式,可以过滤掉很多不相似的对象。
定义:从S映射到U的函数族 称为对距离D是(r1,r2,p1,p2)敏感的,若满足下面2个条件:(其中r1p2)
(1)如果D(p,q)≤r1,则Pr (h(q)=h(p))≥p1;
(2)如果D(p,q)r2,则Pr (h(q)=h(p))≤p2。
LSH的处理过程是将高维空间中的对象看作点,d是它的维度。从 哈希函数族中随机独立均匀地选择k个hi( )组成函数g( )=(h1( ),h2( ),...,hk( ))。通过哈希函数g( )将空间所有点映射到一个哈希表T( )中,哈希表里有多个桶。选出L个这样的函数g1( ),g2( ),…,gL( ),每一次把所有的点都哈希到哈希表中,共有L个哈希表。对于给定的查询q,分别计算g1(q)、g2(q)、…、gL(q)。以所有落入哈希表Ti( )中的桶gi(q)中的点作为查询候选集,最后比较它们与q之间的距离,距离最近的K个点即为它的KNN。
最原始的LSH有一些缺点,即只在海明空间有效、对参数k和L敏感、I/O开销大等。
2.2基于p-稳定分布的LSH
在原始LSH方法中,需要将原始空间嵌入到海明空间,而p-稳定LSH算法可以直接在欧式空间下进行局部敏感哈希运算。在p-稳定LSH中,利用p-稳定分布的特性,使得生成的哈希函数族可以保持局部敏感性。
哈希函数族的形式
文档评论(0)