搜索引擎判定相似文章网页的原理大解析.docVIP

  • 7
  • 0
  • 约 5页
  • 2016-12-31 发布于贵州
  • 举报

搜索引擎判定相似文章网页的原理大解析.doc

  在上一篇文章中已经详细的介绍了利用TF-IDF算法自动提取文章关键词的原理。接下来,我们再来研究一下另一个相关的问题。这个问题也是我们做SEO的最关心的,有些时候,我们除了要明白如何找到并提取文章关键词,我们还需要找到与原文章相似的其他文章。比如,我们平时在搜索引擎的新闻栏目下搜索某条新闻的时候,在主新闻下方,还提供了多条相似的新闻。如下图所示:   223052OD-0为了找出相似的文章,我们就需要用到另外一个公式原理了,那就是“余弦相似性(cosine similiarity)”。   一、什么是余弦相似性?   余弦相似性是指通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。在比较过程中,向量的规模大小不予考虑,仅仅考虑到向量的指向方向。余弦相似度通常用于两个向量的夹角小于90°之内,因此余弦相似度的值为0到1之间。   值得注意的是余弦相似度可以用在任何维度的向量比较中,它尤其在高维正空间中的利用尤为频繁。例如在信息检索中,每个词条拥有不同的度,一个文档是由一个由有

文档评论(0)

1亿VIP精品文档

相关文档