- 36
- 0
- 约3.95千字
- 约 18页
- 2016-07-20 发布于湖北
- 举报
pagerank算法概述
基于MapReduce的PageRank算法;*;*;*;D 是阻尼系数,0 < D < 1,通常取 0. 85,由于用户在行网页浏览时不可能按当前页面中的链接前进,而是随机跳跃完全无关页面,则 D 实际上代表的是用户跟随网页链接浏览,不产生随机跳跃的概率值。加入阻尼系数 D 是能保证 PageRank算法总是收敛的。
;主要优点:
PageRank算法通过网页间的链接来评价网页的重要性,在一定程度上避免和减少了人为因素对排序结果的影响;采用与查询无关的离线计算方式,使其具有较高的响应速度;一个网页只能通过别的网页对其引用来增加自身的PR值,且算法的均分策略使得一个网页的引用越多,被引用网页所获得的PR值就越少。因此,算法可以有效避免那些为了提高网站的搜索排名而故意使用链接的行为。
;主要缺点:
算法在Google搜索引擎的成功运用,说明其是高效、可行的。但由于完全基于链接分析,且链接信息相对静态,没有考虑网页使用的动态信息,因此算法还存在一些缺陷,主要可归纳为:
(1)主题漂移问题
PageRank算法仅利用网络的链接结构,无法判断网页内
容上的相似性;且算法根据向外链接平均分配权值使得主题
不相关的网页获得与主题相关的网页同样的重视度,出现主
题漂移。
;(2)偏重旧网页问题
决定网页PR值的主要因素是指向它的链接个数的多少。一个
原创力文档

文档评论(0)