我的读书笔记(二)数据分析中相似度计算在算法中的体现.docVIP

下载本文档

4
0
约1.6千字
约 3页
2017-08-10 发布于重庆
举报
版权申诉

我的读书笔记(二)数据分析中相似度计算在算法中的体现.doc

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

我的读书笔记(二)数据分析中相似度计算在算法中的体现.doc

我的读书笔记：相似度计算如果有N个集合，求它们之间两两的相似度就需要N*(N-1)/2次计算，当N很大时这个代价仍然承受不起。于是我们需要一种方法能够不遍历所有可能的元素对就找出相似度较大的那些（大于某个给定的阈值t），这就是所谓Locality-Sensitive Hashing。第三章的后半部分基本全是围绕这一话题展开的。这里又要出现一个比较神奇的方法了：由上篇文章所述，对每一列c（即每个集合）我们都计算出了n行minhash值，我们把这n个值均分成b组，每组包含相邻的r=n/b行。对于每一列，把其每组的r个数都算一个hash值出来，把此列的编号记录到hash值对应的bucket里。如果两列被放到了同一个bucket里，说明它们至少有一组(r个)数的hash值相同，此时可认为它们有较大可能相似度较高（称为一对candidate）。最后在比较时只对落在同一个bucket里的集合两两计算，而不是全部的两两比较。下面进行一点理论上的分析。如果两个集合被放到一个桶里，说明它们至少有一组minhash值是相同的。设两个元素的一次minhash值相同的概率是s（就是那个Jaccard相似度），那么一组全相同的概率是s^r，则b组中至少有一组相同的概率为1-(1-s^r)^b。如果b和r固定，那么此概率与s值形成的曲线是一个S型。S型斜率最高的点大约在(1/b)^(1/r)处。可以发现这个算法只能得到近似的结果，有可能两个相似度大于阈值t的集合没有被放到一个桶里，于是就漏掉了；另外也可能相似度小于t的集合被放到了一个桶里，造成了无效的计算。我们希望这两种错误都尽可能地小。形式化一点就是，我们定义一种函数(Locality-Sensitive Function, LSF)，它把一个集合映射为一个值，如果两个集合映射到的值相同，就认为他们有可能相似度较高。这个函数的好坏可以用一个四元组(d1,d2,p1,p2)表示，意思是说，如果两集合的距离（此处我们把距离定义为1减去Jaccard相似度）小于d1，则它们至少有p1的概率映射为同一个值；如果两集合的距离大于d2，则它们至多有p2的概率映射为同一个值。可以发现对于同样的一对(d1,d2)，p1越大p2越小，那么这个函数的效果就越好。对于上述minhash的例子，如果只用一次minhash值作为LSF，那么它是(d1,d2,1-d1,1-d2)-sensitive，此时其实那个S-曲线是一条直线。比如令d1=0.2, d2=0.6，它就是(0.2, 0.6, 0.8, 0.4)。而如果我们用4组每组4个minhash值按上述方法计算，那么它是(0.2, 0.6, 0.8785, 0.0985)，可以发现p1变大而p2变小了。在极端情况下，如果b和r都很大，那个S曲线将近似成为一个分段函数，一开始的时候几乎一直是0，突然极快地跳到接近1，这时效果是非常好的，但是需要大量的minhash值计算。另外，这里对于LSH的讨论实际上是很一般化的，待比较的东西不一定是集合，“距离”的定义不一定非和Jaccard相似度有关，LSF函数也不一定和minhash算法有关。比如可以定义01串的hamming距离，或者欧氏空间中的点的距离等等。对于hamming距离，LSF可定义为随机取一个二进制位看其是否相同，那么对于两个长度为L，Hamming距离为d的串，相同的概率就是d/L，所以是(d1,d2,1-d1/L,1-d2/L)-sensitive，此时同样可以用多次取值的方法进行加强。对于欧氏空间的点，情况比较复杂，书上给了一个二维空间的例子，方法是随机取一条直线并将其划分成固定长度的小段，将两个点映射到这条线上，看其是否落入同一个小段内。也可以推出一个四元组的结果，不过推导比较麻烦，在此略过。整理发布