- 10
- 0
- 约3.68千字
- 约 4页
- 2019-01-14 发布于天津
- 举报
相似度计算公式
相似度计算公式
相似度计算
在数据挖掘中经常需要用到比较两个东西的相似度。比如搜索引擎要避免非常相似的文档出现在结果的前 几页,再比如很多网站上都有的 “ 查找与你口味相似的用户 ” 、 “ 你可能喜欢什么什么 ” 之类的功能。后者其 实是很大的一块叫做 “ 协同过滤 ” 的研究领域,留待以后详谈。
首先我们定义两个集合 S,T 的 Jaccard 相似度 : Sim(S,T) = |S,T的交集 | / |S,T的并 集 |。直观上就容易感觉出这是一个很简单而且比较合理的度量,我不清楚有没有什么 理论上的分析,在此省略。下面先主要说一下文档的相似度。
如果是判断两个文档是否完全相同,问题就变得很简单,只要简单地逐字符比较即可。 但是在很多情况下并不是这样,比如网站文章的转载,主体内容部分是相同的,但是不 同网页本身有自己的 Logo 、 导航栏、版权声明等等,不能简单地直接逐字符比较。这里 有一个叫做 Shingling 的方法, 其实说起来很圡, 就是把每相邻的 k 个字符作为一个元 素,这样整篇文档就变成了一个集合。比如文档是
当然,这是一个看上去就很粗糙的算法,这里的相似度比较只是字符意义上的,如果想 进行语义上的比较就不能这么简单了(我觉得肯定有一摞摞的 paper 在研究这个)。不 过同样可以想见的是, 在实际中这个粗糙算法肯定表现得不坏, 速度上更是远优于复杂 的
您可能关注的文档
最近下载
- 机器视觉技术及应用课件 第2章 光源系统认知与选择.pptx VIP
- TSG D7005-2018 压力管道定期检验规则 工业管道.docx VIP
- 标准图集-04S531-3湿陷性黄土地区给水排水检漏井.pdf VIP
- 2025年职业资格假肢装配工-理论知识参考题库含答案解析.docx VIP
- 2025年职业资格假肢装配工-理论知识参考题库含答案解析(5套试卷).docx VIP
- 社区矫正对象月度考核记录表54课件.pptx VIP
- 2025年房地产经纪人交易流程可视化与进度跟踪工具专题试卷及解析.pdf VIP
- 2025年测绘师摄影测量与遥感遥感定量反演模型与方法专题试卷及解析.pdf VIP
- 2025年演出经纪人艺人合同中的合同终止后义务专题试卷及解析.pdf VIP
- 2025年演出经纪人艺人收入分配中的税务稽查风险专题试卷及解析.pdf VIP
原创力文档

文档评论(0)