(2014年2月26日课堂PPT)补充材料 - PageRank - Web_Graph__Link_Analysis.ppt

下载文档 降价啦

1
0
约3.74千字
约 17页
2017-06-17 发布于湖北
举报
版权申诉
保障服务

(2014年2月26日课堂PPT)补充材料 - PageRank - Web_Graph__Link_Analysis.ppt

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

(2014年2月26日课堂PPT)补充材料-PageRank-Web_Graph_

对网页重要性的评价 PageRank算法，HITS（Hyperlink Induced Topic Search）算法都是为了利用HTML网页的链接特点，改善查询的效果当Spam页面淹没了search engine的搜索结果页面时，除了页面内容与查询的相关性以外，页面本身的质量/重要性的作用就显现出来 Larry Page Sergey Brin Jon Kleinberg 重要度的度量一阶指标（“入度”）知晓关系：社会知名度引用关系：认可程度 “高阶指标” 和一个著名人物“共同发表”论文的“距离”：越短似乎显得越“有荣誉”（例如，Erdos number，） Paul Erd?s 刘翔认识甲的人可能和认识乙的人一样多，但认识乙的人都是些“重要人物”，于是通常会认为乙比甲重要不仅是人，论文也是一样，被重要的文章引用的文章可能就比较重要些谁重要一些？声望模型Reputation Model 给定一个群体S，及其在上面的一个“知晓”关系R，于是定义了一个有向“关系图”G。用邻接矩阵E表示，E(i,j)=1，当且仅当i “听说过” j（注意这里没有程度之分）。我们希望确定p(i)：所有个体i∈S的“声望” 模型一：p(i) = ∑E[k,i]，k=1,…,n，即i在G上的“入度”，亦即E的第i列的1的个数清楚、好计算；但是“不够好” 模型二：p(i) = ∑E[k,i]p(k)，k=1,…,n，即i的声望等于知晓他的人的声望之和清楚、显得要更“精确些”；但是，好计算吗？声望模型二对于所有i，p(i) = ∑E[k,i]p(k)，k=1,…,n 也就是，记p = (p(1), p(2), …, p(n))T, p = ETp 问题是：这个方程存在解吗？如果存在，如何得到？如果不存在，该怎么办？一般来讲：这个方程的非0解是不存在的！ p = ETp 的不存在例 S = {1,2,3}, R = {1,2,1,3,2,3} E = ((0,1,1),(0,0,1),(0,0,0)) ET = ((0,0,0),(1,0,0),(1,1,0)) 不难看到，方程的成立?p(1)=0?p(2)=0?p(3)=0 一般来讲，p = ETp，意味着要求ET有特征值1，这是很难得的。 1 2 3 “Random Walker”模型设想有一个永不休止、在网上浏览网页的人,随机选择一个链出的链接继续访问。我们问，在稳态情况下（足够长时间后），他会正在看哪一篇网页呢？等价于：稳态情况下，每个网页v会有一个被访问的概率，p(v)，它可以作为网页的重要程度的度量。我们可以合理地设想：此时到达v的概率，依赖于上一个时刻到达“链向”v的网页的概率，以及那些网页中超链的个数。 Random walker model p(v) = ∑E[u,v]*p(u)/du, over u 这里，du是网页u的“出度”，∑E[u,v] over u。 ∑p(u) = 1 V u1 u2 u3 u4 u5 稳定时： Random Walker Model (continue) 改写一下，成形式上和“声望”模型一样，只是矩阵L有行向量元素和为1的性质。有用吗？ Dangling Node（出度为0的节点）对于这些节点，矩阵L对应着元素全0的行，元素和不为1 修正：L[u,v] = 1/N if du=0 Stochastic matrix 矩阵M，元素非负，每个行向量元素之和分别都等于1（亦称马尔科夫转移矩阵） L就是这种矩阵() 对应有一个特征值为1的特征向量还有一点问题上述“随机浏览”模型有稳态解的条件是：由网页形成的有向图允许通过链接关系访问到每一个网页但有两个情况是破坏这条件的图中形成“圈”(rank bounce) 有入度或者出度为0的点(rank sink) 因此该模型的表述通常要求所形成的图是irreducible（强连通）和aperiodic（不能有进去后出不来的圈）。继续修改模型让这浏览者每次以一定的概率（1-β）沿着超链走，以概率（β）重新随机选择一个新的起始节点这在物理意义上即总是有可能跳进入度为0的点，跳出那些“圈”。在模型表达上即为 β选在0.1和0.2之间，被称作damping factor(Page Brin 1997） G=(1-β)LT+ β/N(1N) 被称为Google Matrix Google Matrix特征向量求解 Power Iteration方法：给定Google Matrix G，记|λ1| ≥|λ2| ≥…,q1是属于λ1的特征向量初始化向量p0，使得||p0||1=1 对于k = 1, 2, …,执行如下步骤 x = Gpk-1，