相似度计算公式.docxVIP

下载本文档

26
0
约3.82千字
约 4页
2020-12-06 发布于山东
举报

相似度计算公式.docx

. 相似度计算在数据挖掘中经常需要用到比较两个东西的相似度。比如搜索引擎要避免非常相似的文档出现在结果的前几页，再比如很多网站上都有的“查找与你口味相似的用户”、“你可能喜欢什么什么”之类的功能。后者其实是很大的一块叫做“协同过滤”的研究领域，留待以后详谈。首先我们定义两个集合 S,T 的 Jaccard 相似度 : Sim(S,T) = |S,T 的交集 | / |S,T 的并集| 。直观上就容易感觉出这是一个很简单而且比较合理的度量，我不清楚有没有什么理论上的分析，在此省略。下面先主要说一下文档的相似度。如果是判断两个文档是否完全相同，问题就变得很简单，只要简单地逐字符比较即可。但是在很多情况下并不是这样，比如网站文章的转载，主体内容部分是相同的，但是不同网页本身有自己的 Logo、导航栏、版权声明等等，不能简单地直接逐字符比较。这里有一个叫做 Shingling 的方法，其实说起来很圡，就是把每相邻的 k 个字符作为一个元素，这样整篇文档就变成了一个集合。比如文档是 banana ，若 k=2，转化以后得到集合为 {ba,an,na} ，于是又变成了前述集合相似度的问题。关于 k 值的设置，显然过小或过大都不合适，据说比较短的比如 email 之类可以设 k=5，比如长的文章如论文之类可以设 k=9。当然，这是一个看上去就很粗糙的算法，

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

相似度计算公式.docxVIP