- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
我的读书笔记(二)数据分析中相似度计算在算法中的体现.doc
我的读书笔记:相似度计算
如果有N个集合,求它们之间两两的相似度就需要N*(N-1)/2次计算,当N很大时这个代价仍然承受不起。于是我们需要一种方法能够不遍历所有可能的元素对就找出相似度较大的那些(大于某个给定的阈值t),这就是所谓Locality-Sensitive Hashing。第三章的后半部分基本全是围绕这一话题展开的。
这里又要出现一个比较神奇的方法了:由上篇文章所述,对每一列c(即每个集合)我们都计算出了n行minhash值,我们把这n个值均分成b组,每组包含相邻的r=n/b行。对于每一列,把其每组的r个数都算一个hash值出来,把此列的编号记录到hash值对应的bucket里。如果两列被放到了同一个bucket里,说明它们至少有一组(r个)数的hash值相同,此时可认为它们有较大可能相似度较高(称为一对candidate)。最后在比较时只对落在同一个bucket里的集合两两计算,而不是全部的两两比较。
下面进行一点理论上的分析。如果两个集合被放到一个桶里,说明它们至少有一组minhash值是相同的。设两个元素的一次minhash值相同的概率是s(就是那个Jaccard相似度),那么一组全相同的概率是s^r,则b组中至少有一组相同的概率为1-(1-s^r)^b。如果b和r固定,那么此概率与s值形成的曲线是一个S型。S型斜率最高的点大约在(1/b)^(1/r)处。
可以发现这个算法只能得到近似的结果,有可能两个相似度大于阈值t的集合没有被放到一个桶里,于是就漏掉了;另外也可能相似度小于t的集合被放到了一个桶里,造成了无效的计算。我们希望这两种错误都尽可能地小。形式化一点就是,我们定义一种函数(Locality-Sensitive Function, LSF),它把一个集合映射为一个值,如果两个集合映射到的值相同,就认为他们有可能相似度较高。这个函数的好坏可以用一个四元组(d1,d2,p1,p2)表示,意思是说,如果两集合的距离(此处我们把距离定义为1减去Jaccard相似度)小于d1,则它们至少有p1的概率映射为同一个值;如果两集合的距离大于d2,则它们至多有p2的概率映射为同一个值。可以发现对于同样的一对(d1,d2),p1越大p2越小,那么这个函数的效果就越好。
对于上述minhash的例子,如果只用一次minhash值作为LSF,那么它是(d1,d2,1-d1,1-d2)-sensitive,此时其实那个S-曲线是一条直线。比如令d1=0.2, d2=0.6,它就是(0.2, 0.6, 0.8, 0.4)。而如果我们用4组每组4个minhash值按上述方法计算,那么它是(0.2, 0.6, 0.8785, 0.0985),可以发现p1变大而p2变小了。在极端情况下,如果b和r都很大,那个S曲线将近似成为一个分段函数,一开始的时候几乎一直是0,突然极快地跳到接近1,这时效果是非常好的,但是需要大量的minhash值计算。
另外,这里对于LSH的讨论实际上是很一般化的,待比较的东西不一定是集合,“距离”的定义不一定非和Jaccard相似度有关,LSF函数也不一定和minhash算法有关。比如可以定义01串的hamming距离,或者欧氏空间中的点的距离等等。对于hamming距离,LSF可定义为随机取一个二进制位看其是否相同,那么对于两个长度为L,Hamming距离为d的串,相同的概率就是d/L,所以是(d1,d2,1-d1/L,1-d2/L)-sensitive,此时同样可以用多次取值的方法进行加强。对于欧氏空间的点,情况比较复杂,书上给了一个二维空间的例子,方法是随机取一条直线并将其划分成固定长度的小段,将两个点映射到这条线上,看其是否落入同一个小段内。也可以推出一个四元组的结果,不过推导比较麻烦,在此略过。 整理发布
您可能关注的文档
- 山东信息中心2010年工作总结.doc
- 山东省教师资格考试中学教育学真题(2005年2009年).doc
- 山东省电子商务综合运营管理有限公司关于申请《支付业务许可证》的公告.pdf
- 山东轻工业学院网络用户手册.doc
- 山丽网安14年信息安全八大趋势抵御威胁是重中之重.doc
- 山大电子商务本科《Web开发技术》模拟题no.pdf
- 山大网络教育《计算机基础》模拟参考答案.doc
- 岩石薄片粒度图像分析测定报告封面.doc
- 岷江上游生态脆弱性评价.pdf
- 崔焰0752221《网络服务器配置与管理实训》实训项目指导书.doc
- 师缘主题课件最新完整版本.pptx
- 基于偏好MOEA_D算法的气发动机多目标优化标定研究.pdf
- 师范技能课件比赛一等奖最新完整版本.pptx
- 师范生初中美术说课课件最新完整版本.pptx
- 师范技能课件图片素材库最新完整版本.pptx
- Unit 2 Making a Difference Understanding ideas The Well that changed the world 教学设计-高中英语外研版(2019)必修第三册.docx
- 师范生技能大赛PPT课件语文最新完整版本.pptx
- 基于扭矩的双燃料发动机控制策略研究.pdf
- 1.2.1 等差数列的概念及其通项公式(教学设计)高二数学(北师大版2019选择性必修第二册).docx
- 师范文化课件最新完整版本.pptx
最近下载
- 统编版七年级历史下册第18课《统一多民族国家的巩固和发展》优质教案+导学案(含答案).doc
- 审查调查外查工作培训课件.pdf VIP
- 2024-2025学年初中音乐七年级上册(2024)湘艺版(2024)教学设计合集.docx
- 2024年部编版中考语文模拟试卷及答案.doc VIP
- 《萨班斯法案》课件.ppt VIP
- 2021电子科技大学-计算机体系结构实验报告01.pdf
- 《智能机器人系统》全套教学课件.pptx
- 2023年南京郑和外国语学校小升初分班考试数学模拟试卷及答案解析.pdf
- 统编版七年级历史下册第18课《统一多民族国家的巩固和发展》精美教案+导学案(含答案).doc
- AVL BOOST燃烧及传热模型介绍.pdf VIP
文档评论(0)