搜索引擎重复网页发现技术分析.pptxVIP

  • 1
  • 0
  • 约7.03千字
  • 约 38页
  • 2016-12-28 发布于北京
  • 举报
搜索引擎重复网页发现技术分析中科院软件所作者:张俊林一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的 29%,而完全相同的页面大约占全部页面的 22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript),文献[Modelsand Algorithms for Duplicate Document Detection 1999 年]将内容重复归结为以下四个类型:1.如果 2 篇文档内容和格式上毫无差别,则这种重复叫做full-layout duplicate。2.如果2篇文档内容相同,但是格式不同,则叫做full-contentduplicates3.如果 2 篇文档有部分重要的内容相同,并且格式相同,则称为 partial-layout duplicates4.如果 2 篇文档有部分重要的内容相同,但是格式不同,则称为 partial-content duplicates近似重复网页发现技术就是通过技术手段快速全面发现这些重复信息的手段.如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。发现重复或者近似网页对于搜索引擎有很多好处:1. 首先,如果我们能够找出这些重复网页并从数据库中去掉,就能够节省一部分存储空

文档评论(0)

1亿VIP精品文档

相关文档