- 7
- 0
- 约 5页
- 2016-12-31 发布于贵州
- 举报
在上一篇文章中已经详细的介绍了利用TF-IDF算法自动提取文章关键词的原理。接下来,我们再来研究一下另一个相关的问题。这个问题也是我们做SEO的最关心的,有些时候,我们除了要明白如何找到并提取文章关键词,我们还需要找到与原文章相似的其他文章。比如,我们平时在搜索引擎的新闻栏目下搜索某条新闻的时候,在主新闻下方,还提供了多条相似的新闻。如下图所示:
223052OD-0为了找出相似的文章,我们就需要用到另外一个公式原理了,那就是“余弦相似性(cosine similiarity)”。
一、什么是余弦相似性?
余弦相似性是指通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。在比较过程中,向量的规模大小不予考虑,仅仅考虑到向量的指向方向。余弦相似度通常用于两个向量的夹角小于90°之内,因此余弦相似度的值为0到1之间。
值得注意的是余弦相似度可以用在任何维度的向量比较中,它尤其在高维正空间中的利用尤为频繁。例如在信息检索中,每个词条拥有不同的度,一个文档是由一个由有
您可能关注的文档
最近下载
- 2026届九年级数学中考一轮复习圆与相似综合专项训练卷(含答案解析与评分细则)Morrow0524第028套.docx VIP
- 2026届九年级物理中考一轮复习压强浮力专项训练卷(含答案解析与评分细则)Morrow0524第032套.docx VIP
- 输尿管结石的超声诊断.ppt VIP
- 短视频剪辑视频剪辑技巧培训教程.pptx VIP
- 短视频剪辑教程.pptx VIP
- 广东温氏食品集团股份有限公司猪场作业指导书(第二版).pdf VIP
- 输尿管结石的超声诊断.PPT
- 项目部阳光工程实施方案(3篇).docx
- 第1课 追求向上向善的道德 课件(共42张PPT+2个)中职高教版(2023)职业道德与法治.pptx VIP
- 中国农业大学后勤保障处非事业编制C岗人员招聘真题.docx VIP
原创力文档

文档评论(0)