局部敏感哈希精要.docx

局部敏感哈希精要

局部敏感哈希(Locality-Sensitive Hashing, LSH) 1 Introduction 局部敏感哈希(Locality-Sensitive Hashing, LSH)是一种用于海量高维数据的近似最近邻快速查找技术,本文内容包括了LSH的原理、LSH哈希函数集、以及LSH的一些参考资料。 2 局部敏感哈希(LSH) 面对海量且高维的数据,怎样快速地从海量的高维数据集合中找到与某个数据最相似(距离最近)的一个数据或多个数据成为了一个难点和问题。如果是低维的小数据集,我们通过线性查找(Linear Search)就可以容易解决,但如果是对一个海量的高维数据集采用线性查找匹配的话,会非常耗时。因此,我们需要采用一些类似索引的技术来加快查找过程,通常这类技术称为最近邻查找(Nearest Neighbor, AN),例如K-d tree;或近似最近邻查找(Approximate Nearest Neighbor, ANN),例如K-d tree with BBF, Randomized K-d trees, Hierarchical K-means Tree。而LSH是ANN中的一类方法。 我们知道,通过建立Hash Table的方式我们能够得到的查找时间性能,其中关键在于选取一个hash function,将原始数据映射到相对应的桶内(bucket, hash b

文档评论(0)

1亿VIP精品文档

相关文档