- 26
- 0
- 约3.82千字
- 约 4页
- 2020-12-06 发布于山东
- 举报
.
相似度计算
在数据挖掘中经常需要用到比较两个东西的相似度。比如搜索引擎要避免非常相似的文档出现在结果的前
几页,再比如很多网站上都有的“查找与你口味相似的用户”、“你可能喜欢什么什么”之类的功能。后
者其实是很大的一块叫做“协同过滤”的研究领域,留待以后详谈。
首先我们定义两个集合 S,T 的 Jaccard 相似度 : Sim(S,T) = |S,T 的交集 | / |S,T 的并
集| 。直观上就容易感觉出这是一个很简单而且比较合理的度量,我不清楚有没有什么理论上的分析,在此省略。下面先主要说一下文档的相似度。
如果是判断两个文档是否完全相同,问题就变得很简单,只要简单地逐字符比较即可。但是在很多情况下并不是这样,比如网站文章的转载,主体内容部分是相同的,但是不
同网页本身有自己的
Logo、导航栏、版权声明等等,不能简单地直接逐字符比较。这里
有一个叫做 Shingling
的方法, 其实说起来很圡, 就是把每相邻的
k 个字符作为一个元
素,这样整篇文档就变成了一个集合。比如文档是
banana ,若 k=2,转化以后得到集
合为 {ba,an,na}
,于是又变成了前述集合相似度的问题。关于
k 值的设置,显然
过小或过大都不合适,据说比较短的比如
email 之类可以设 k=5,比如长的文章如论文
之类可以设 k=9。
当然,这是一个看上去就很粗糙的算法,
您可能关注的文档
最近下载
- 新12S8室外给水管道附属构筑物标准图集.docx VIP
- T /CCPS 0034—2025 宁夏文化旅游多模态语料库标准体系建设指南.pdf VIP
- GB∕T 469-2023 铅锭 GB∕T 469-2023 铅锭 GB∕T 469-2023 铅锭.pdf
- 2026年移民安置政策执行中的问题与对策.pptx VIP
- 《后浇清水混凝土技术规程》.pdf VIP
- 《规范化支具室建设方案:从规划到运营》.docx VIP
- 2026浙江宁波国际会议中心管理有限公司招聘3人笔试备考题库及答案解析.docx VIP
- GB-13271-2014锅炉大气污染物排放标准.pdf VIP
- 2016苏州数学中考试卷.pdf VIP
- 高中物理必修第2册教材习题答案(OCR).pdf VIP
原创力文档

文档评论(0)