大类通识ppt2_Google的秘密——刘巧华.ppt

下载文档 降价啦

6
0
约6.71千字
约 48页
2017-05-27 发布于湖北
举报
保障服务

大类通识ppt2_Google的秘密——刘巧华.ppt

大类通识ppt2_Google的秘密——刘巧华精要

PageRank算法关心的是：不管大家从互联网系统的哪个页面开始，顺着页面链接访问若干次后，每个网页被访问的概率几何? 每个网页被访问的概率最终决定PageRank的大小。对任意初始状态，即页面选择经过1步转移(只经过1个链接)后，各网页被访问的概率为 …. 页1 页2 页3 页N 页i 从初始状态出发，只经过1个链接，页面i被访问的概率为 PageRank算法关心的是：k趋于无穷时，每个网页被访问的平均概率几何? 类似地，若经过k步转移(经过k个链接)后，各网页被访问的概率为 PageRank的计算根据Markov链的基本性质，对于正则Markov链，存在平稳分布，满足表示在极限状态下各网页被访问的概率分布 ( 也称为A的特征值1(最大特征值)对应的特征向量)。定义为网页的PageRank向量，表示第i个网页的PageRank值 PageRank的计算 0.699456533837389 0.382860418521518 0.323958815672054 0.242969111754040 0.412311219946251 0.103077804986563 0.139891306767478 0.303514376996805 0.166134185303514 0.140575079872204 0.105431309904153 0.178913738019169 0.0447284345047923 0.0607028753993610 求特征值1对应的特征向量 Ay=y 归一化 7个网页的PageRank值 1 2 3 4 5 6 7 PageRank结果的评价将 PageRank 的评价按顺序排列 (PageRank小数点3位四舍五入): 导出反向链接源页面ID PageRank结果的评价首先，PageRank的名次和反向链接的数目是基本一致的。无论链接多少, 导出链接都几乎不会影响PageRank，相反地有多少反向链接却是从根本上决定PageRank的大小。但是，仅仅这些并不能说明第1位和第2位之间的显著差别，在反向链接相同的情况下，导出链接数也影响PageRank的大小。(同样地、第3位和第4位，第6位和第7位之间的差别)。总之，绝妙之处在于PageRank并不只是通过反向链接数来决定的。导出反向链接源页面ID PageRank结果的评价 ID=1 的页面的PageRank 是0.304，占据全体的三分之一，成为了第1位。特别需要说明的是，起到相当大效果的是从排在第3位的 ID=2 页面中得到了所有的PageRank (0.166) 数。ID=2页面有从3个地方过来的反向链接，而只有面向 ID=1页面的一个链接，因此(面向ID=1页面的)链接就得到了所有的PageRank数。不过，就因为ID=1页面是导出链接和反向链接最多的页面，也可以理解它是最受欢迎的页面。导出链接ID 反向链接源页面ID PageRank结果的评价反过来，最后一名的 ID=6 页面只有 ID=1 的15％的微弱评价，这可以理解为是因为没有来自 PageRank 很高的 ID=1 的链接而使其有很大地影响。总之，即使有同样的链入链接的数目，链接源页面评价的高低也影响 PageRank 的高低。反向链接源页面ID 导出链接ID 现实世界： 1. 顺着链接前进的话，有时会走到完全没有导出链接的网页； 2. 同样道理，只有导出的链接而没有反向链接的页面也是存在的； 3.有时候也有链接只在一个集合内部旋转而不向外界链接的现象。 PageRank算法实际应用的困难实际问题可能出现的情况：导致最大特征值1不唯一，特征向量不唯一，无法对网页进行排序。问题的解决方法 PageRank考虑了这样一种浏览模型——用户虽然在许多场合都顺着当前页面中的链接前进, 但时常会跳跃到完全无关的页面。将「时常」这个概率固定为 15％来计算。则用户在 85％的情况下沿着链接前进, 但在 15％的情况下会突然跳跃到无关的页面中去。(注:PageRank 的原始参数是87％(＝1/1.15 )和13％(＝0.15/1.15)。) 问题的解决方法考虑 B= c*A +(1-c)*[1/N] 其中，[1/N]是所有元素为 1/N 的 N阶方矩阵， c =0.85(=1-0.15)。B是新的状态转移矩阵。相对于原来的状态转移矩阵，这样的变换操作能保证最大特征值的个数为1，也就保证了PageRank的存在。 PageRank数值计算难点计算机容量限制假设 N

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

大类通识ppt2_Google的秘密——刘巧华.ppt