搜索引擎页面排序算法的研究综述.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎页面排序算法的研究综述

搜索引擎页面排序算法的研究综述   摘 要:系统地分析了现有的页面排序算法,指出了它们各自的优势和存在的不足,并指出不同算法在不同领域和场合所具有的优势。建立专业搜索引擎是提高搜索准确性和性能的有效途径。通过网格技术将各种专业搜索引擎集成在一起,形成一个基于网格的搜索引擎,从而更好地满足不同背景不同偏好的用户需求。??   关键词:搜索引擎;页面排序;链接分析??   中图分类号:TP393.09文献标志码:A   文章编号:1001-3695(2007)06-0004-04   随着Internet的飞速发展,其提供的文档(网页)也以惊人的速度在增长。有关的调查统计表明,Internet上的网页每不到一年的时间就会增长一倍。要从这么大量的信息库中提取出有用的信息就越来越依赖于搜索引擎的功能。而网页的排序则是搜索引擎要解决的关键问题之一。??   Sergey Brin等人[1]提出PageRank算法开启了链接分析研究的热潮。基于链接分析的算法,提供了一种衡量网页质量的客观方法;独立于语言,独立于内容;无需人工干预就能自动发现Web上的重要资源,挖掘出Web上的重要社区,自动实现文档分类。PageRank在Google中的应用获得了巨大的商业成功。在最初的Google中,首先使用IR(Information Retrieve)算法找到所有与查询关键字相匹配的网页;然后根据页面因素(标题、关键字密度等)进行排名;最后通过PageRank得分调整网站排名结果。??   近几年来,基于链接分析的页面排序算法一直是一个热点问题,学者提出了许多页面排序算法。??      1 PageRank及其相关算法??   基于链接分析的排序算法中,最为著名的就是PageRank。所谓链接分析主要基于如下两个重要假设:   ①超文本链接包含了用户对一个网站的判断信息;   ②对一个网站而言,如果其他网站链接到该网站的入链数越多,该网站越重要。   以上假设在各种基于链接分析的算法中均以某种方式体现出来。??   1.1 PageRank算法??   PageRank算法是最早提出的链接分析算法之一,并被Google用于计算网页的重要性得分。其基本思想是:如果网页??T??存在一个指向网页??A的链接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。??这个重要性得分的值则由??T??的PageRank值??PR(T)和T的出链(从T链出的链接)数C(T) 决定。具体公式为:PR(T) / C(T) 。而对于页面A,??其PageRank值??PR(A)??的计算如下:??   ??PR(A)=PR(T??1)/C(T??1)+…+PR(T??n)/C(T??n)(1)??   其中,T??1,T??2,…, T??n为含有指向A链接的页面。?オ?   为了避免Link Sink(许多网页没有入链或出链)问题,对式(1)引入一个阻尼系数??d??,使其变为??   ??PR(A)=(1-d)+d[PR(T??1)/C(T??1)+…+PR(T??n)/C(T??n)](2)??   如此经过多次迭代,系统的PR值达到收敛。??   PR??的计算公式可以从概率的角度解释为一个随机网络冲浪者随机选择一个网页后,不断地点击网页上的链接,但是从不返回;除非最后厌烦了才随机选择另一个页面。随机冲浪者访问某个页面的随机概率就是该页面的PageRank值;阻尼系数??d??就是随机冲浪者在某个页面会厌烦然后选择一个新页面的概率。页面的PageRank值越高,则随机冲浪者发现它的概率亦越高。这种思路非常富有创意。一个网页的外部链接越多,则对网络冲浪者来说,发现它的机会也就越大。??   文献[2]结合近年来Web出现的一些新特性对PageRank提出了一些改进措施。文献[3]中对PageRank算法中的阻尼系数??d进行了深入讨论,从理论上分析了d??的取值不同对于PageRank算法效果的影响。文献[4]提出了一种方法用于对PageRank中的迭代计算进行加速。??   PageRank的一个优势在于它是一个与查询无关的静态算法,因此所有网页的PageRank值均可以通过离线计算获得。这样有效地减少了在线查询时的运算量,极大地降低了查询响应时间。??   然而Internet上的内容涵盖了众多主题,在现实应用中,人们的查询所希望得到的信息往往是具有某一方面主题特征的,而PageRank仅仅依靠计算网页的外部链接数量来决定该网页的排名,而忽略了页面的主题相关性,从而影响了搜索结果的相关性和准确性。   另一方面,PageRank算法对新网页有很严重的歧视性,因为一个新网页入链数量通常都很少,

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档