局部敏感哈希剖析.docx

下载文档 降价啦

8
0
约6.95千字
约 6页
2017-06-05 发布于湖北
举报
版权申诉
保障服务

局部敏感哈希剖析.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

局部敏感哈希剖析

局部敏感哈希(Locality-Sensitive Hashing, LSH)1Introduction局部敏感哈希(Locality-Sensitive Hashing, LSH)是一种用于海量高维数据的近似最近邻快速查找技术，本文内容包括了LSH的原理、LSH哈希函数集、以及LSH的一些参考资料。2 局部敏感哈希（LSH）面对海量且高维的数据，怎样快速地从海量的高维数据集合中找到与某个数据最相似（距离最近）的一个数据或多个数据成为了一个难点和问题。如果是低维的小数据集，我们通过线性查找（Linear Search）就可以容易解决，但如果是对一个海量的高维数据集采用线性查找匹配的话，会非常耗时。因此，我们需要采用一些类似索引的技术来加快查找过程，通常这类技术称为最近邻查找（Nearest Neighbor, AN），例如K-d tree；或近似最近邻查找（Approximate Nearest Neighbor, ANN），例如K-d tree with BBF, Randomized K-dtrees, Hierarchical K-means Tree。而LSH是ANN中的一类方法。我们知道，通过建立Hash Table的方式我们能够得到的查找时间性能，其中关键在于选取一个hash function，将原始数据映射到相对应的桶内（bucket, hash bin），例如对数据求模：，通常为一个素数。在对数据集进行hash 的过程中，会发生不同的数据被映射到了同一个桶中（即发生了冲突collision），这一般通过再次哈希将数据映射到其他空桶内来解决。这是普通Hash方法或者叫传统Hash方法，其与LSH有些不同之处。图1 局部敏感哈希示意图（from: Piotr Indyk）LSH的基本思想是：将原始数据空间中的两个相邻数据点通过相同的映射或投影变换（projection）后，这两个数据点在新的数据空间中仍然相邻的概率很大，而不相邻的数据点被映射到同一个桶的概率很小。图2局部敏感哈希示意图也就是说，如果我们对原始数据进行一些hash映射后，我们希望原先相邻的两个数据能够被hash到相同的桶内，具有相同的桶号。对原始数据集合中所有的数据都进行hash映射后，我们就得到了一个hash table，这些原始数据集被分散到了hash table的桶内，每个桶会落入一些原始数据，属于同一个桶内的数据就有很大可能是相邻的，当然也存在不相邻的数据被hash到了同一个桶内。因此，如果我们能够找到这样一些hash functions，使得经过它们的哈希映射变换后，原始空间中相邻的数据落入相同的桶内的话，那么我们在该数据集合中进行近邻查找就变得容易了，我们只需要将查询数据进行哈希映射得到其桶号，然后取出该桶号对应桶内的所有数据，再进行线性匹配即可查找到与查询数据相邻的数据。换句话说，我们通过hash function映射变换操作，将原始数据集合分成了多个子集合，而每个子集合中的数据间是相邻的且该子集合中的元素个数较小，因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题，显然计算量下降了很多。那具有怎样特点的hash functions才能够使得原本相邻的两个数据点经过hash变换后会落入相同的桶内？这些hash function需要满足以下两个条件：1）若，则的概率至少为；2）若，则的概率至少为；其中表示和之间的距离，，和分别表示对和进行hash变换。满足以上两个条件的hash functions称为-sensitive。而通过一个或多个-sensitive的hash function对原始数据集合进行hashing生成一个或多个hash table的过程称为Locality-sensitive Hashing。使用LSH进行对海量数据建立索引（Hash table）并通过索引来进行近似最近邻查找的过程如下：1. 离线建立索引（1）选取满足-sensitive的LSH hash functions；（2）根据对查找结果的准确率（即相邻的数据被查找到的概率）确定hash table的个数L，每个table内的hash functions的个数K，以及跟LSH hash function自身有关的参数；（3）将所有数据经过LSH hash function哈希到相应的桶内，构成了一个或多个hash table；2. 在线查找（1）将查询数据经过LSH hash function哈希得到相应的桶号；（2）将桶号中对应的数据取出；（为了保证查找速度，通常只需要取出前2L个数据即可）；（3）计算查询数据与这2L个数据之间的相似度或距离，返回最近邻的数据；LSH在线查找时间由两个部分组成：（1）通过LSH has