Pagerank算法简介.pptVIP

  • 10
  • 0
  • 约4.88千字
  • 约 35页
  • 2017-05-19 发布于北京
  • 举报
3 PageRank算法的应用 学术论文的重要性排序 学术论文的作者的重要性排序 某作者引用了其它作者的文献,则该作者认为其它作者是“重要”的。 网络爬虫(Web Crawler) 可以利用PR值,决定某个URL,所需要抓取的网页数量和深度 重要性高的网页抓取的页面数量相对多一些,反之,则少一些 关键词与句子的抽取(节点与边) 小结 优点: 是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。 PageRank的缺点 过分相信链接关系 一些权威网页往往是相互不链接的,比如新浪、搜狐、网易以及腾讯这些大的门户之间,基本是不相互链接的,学术领域也是这样。 1)人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低 2)旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。 排序技术是搜索引擎的绝密 Google目前所使用的排序技术,已经不再是简单的PageRank 谢谢大家! * * * * 基于内容的相关性,简单地说是指,比如某篇文档出现了多次“体育新闻”,就比只出现一次“体育新闻”的文档与query的相关性高,目前的相关性排序,已经不再是简单地基于词匹配,还会根据topic,比如大量出现“足球

文档评论(0)

1亿VIP精品文档

相关文档