大类通识ppt2_Google的秘密——刘巧华精要
PageRank算法关心的是:不管大家从互联网系统的哪个页面开始,顺着页面链接访问若干次后,每个网页被访问的概率几何? 每个网页被访问的概率最终决定PageRank的大小。 对任意初始状态, 即页面选择经过1步转移(只经过1个链接)后,各网页被访问的概率为 …. 页1 页2 页3 页N 页i 从初始状态出发,只经过1个链接, 页面i被访问的概率为 PageRank算法关心的是:k趋于无穷时,每个网页被访问的平均概率几何? 类似地,若经过k步转移(经过k个链接)后,各网页被访问的概率为 PageRank的计算 根据Markov链的基本性质,对于正则Markov链,存在平稳分布 ,满足 表示在极限状态下各网页被访问的概率分布 ( 也称为A的特征值1(最大特征值)对应的特征向量)。 定义为网页的PageRank向量, 表示第i个网页的PageRank值 PageRank的计算 0.699456533837389 0.382860418521518 0.323958815672054 0.242969111754040 0.412311219946251 0.103077804986563 0.139891306767478
0.303514376996805 0.166134185303514 0.140575079872204 0.105431309904153 0.178913738019169 0.0447284345047923 0.0607028753993610 求特征值1对应的特征向量 Ay=y 归一化 7个网页的PageRank值 1 2 3 4 5 6 7 PageRank结果的评价 将 PageRank 的评价按顺序排列 (PageRank小数点3位四舍五入): 导出 反向链接源页面ID PageRank结果的评价 首先,PageRank的名次和反向链接的数目是基本一致的。无论链接多少, 导出链接都几乎不会影响PageRank,相反地有多少反向链接却是从根本上决定PageRank的大小。 但是,仅仅这些并不能说明第1位和第2位之间的显著差别,在反向链接相同的情况下,导出链接数也影响PageRank的大小。(同样地、第3位和第4位,第6位和第7位之间的差别)。 总之,绝妙之处在于PageRank并不只是通过反向链接数来决定的。 导出 反向链接源页面ID PageRank结果的评价 ID=1 的页面的PageRank 是0.304,占据全体的三分之一,成为了第1位。特别需要说明的是,起到相当大效果的是从排在第3位的 ID=2 页面中得到了所有的PageRank (0.166) 数。ID=2页面有从3个地方过来的反向链接,而只有面向 ID=1页面的一个链接,因此(面向ID=1页面的)链接就得到了所有的PageRank数。不过,就因为ID=1页面是导出链接和反向链接最多的页面,也可以理解它是最受欢迎的页面。 导出链接ID 反向链接源页面ID PageRank结果的评价 反过来,最后一名的 ID=6 页面只有 ID=1 的15%的微弱评价,这可以理解为是因为没有来自 PageRank 很高的 ID=1 的链接而使其有很大地影响。 总之,即使有同样的链入链接的数目,链接源页面评价的高低也影响 PageRank 的高低。 反向链接源页面ID 导出链接ID 现实世界: 1. 顺着链接前进的话,有时会走到完全没有导出链接的网页; 2. 同样道理,只有导出的链接而没有反向链接的页面也是存在的; 3.有时候也有链接只在一个集合内部旋转而不向外界链接的现象。 PageRank算法实际应用的困难 实际问题可能出现的情况: 导致最大特征值1不唯一,特征向量不唯一,无法对网页进行排序。 问题的解决方法 PageRank考虑了这样一种浏览模型——用户虽然在许多场合都顺着当前页面中的链接前进, 但时常会跳跃到完全无关的页面。 将「时常」这个概率固定为 15% 来计算。则用户在 85% 的情况下沿着链接前进, 但在 15% 的情况下会突然跳跃到无关的页面中去。(注:PageRank 的原始参数是87%(=1/1.15 )和13%(=0.15/1.15)。) 问题的解决方法 考虑 B= c*A +(1-c)*[1/N] 其中,[1/N]是所有元素为 1/N 的 N阶方矩阵, c =0.85(=1-0.15)。B是新的状态转移矩阵。 相对于原来的状态转移矩阵,这样的变换操作能保证最大特征值的个数为1,也就保证了PageRank的存在。 PageRank数值计算难点 计算机容量限制 假设 N
原创力文档

文档评论(0)