(2014年2月26日课堂PPT)补充材料 - PageRank - Web_Graph__Link_Analysis.ppt

(2014年2月26日课堂PPT)补充材料 - PageRank - Web_Graph__Link_Analysis.ppt

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(2014年2月26日课堂PPT)补充材料-PageRank-Web_Graph_

对网页重要性的评价 PageRank算法,HITS(Hyperlink Induced Topic Search)算法 都是为了利用HTML网页的链接特点,改善查询的效果 当Spam页面淹没了search engine的搜索结果页面时,除了页面内容与查询的相关性以外,页面本身的质量/重要性的作用就显现出来 Larry Page Sergey Brin Jon Kleinberg 重要度的度量 一阶指标(“入度”) 知晓关系:社会知名度 引用关系:认可程度 “高阶指标” 和一个著名人物“共同发表”论文的“距离”:越短似乎显得越“有荣誉”(例如,Erdos number,) Paul Erd?s 刘翔 认识甲的人可能和认识乙的人一样多,但认识乙的人都是些“重要人物”,于是通常会认为乙比甲重要 不仅是人,论文也是一样,被重要的文章引用的文章可能就比较重要些 谁重要一些? 声望模型Reputation Model 给定一个群体S,及其在上面的一个“知晓”关系R,于是定义了一个有向“关系图”G。用邻接矩阵E表示,E(i,j)=1,当且仅当i “听说过” j(注意这里没有程度之分)。我们希望确定p(i):所有个体i∈S的“声望” 模型一:p(i) = ∑E[k,i],k=1,…,n,即i在G上的“入度”,亦即E的第i列的1的个数 清楚、好计算;但是“不够好” 模型二:p(i) = ∑E[k,i]p(k),k=1,…,n,即i的声望等于知晓他的人的声望之和 清楚、显得要更“精确些”;但是,好计算吗? 声望模型二 对于所有i,p(i) = ∑E[k,i]p(k),k=1,…,n 也就是,记p = (p(1), p(2), …, p(n))T, p = ETp 问题是: 这个方程存在解吗? 如果存在,如何得到? 如果不存在,该怎么办? 一般来讲:这个方程的非0解是不存在的! p = ETp 的不存在例 S = {1,2,3}, R = {1,2,1,3,2,3} E = ((0,1,1),(0,0,1),(0,0,0)) ET = ((0,0,0),(1,0,0),(1,1,0)) 不难看到,方程的成立?p(1)=0?p(2)=0?p(3)=0 一般来讲,p = ETp,意味着要求ET有特征值1,这是很难得的。 1 2 3 “Random Walker”模型 设想有一个永不休止、在网上浏览网页的人,随机选择一个链出的链接继续访问。我们问,在稳态情况下(足够长时间后),他会正在看哪一篇网页呢? 等价于:稳态情况下,每个网页v会有一个被访问的概率,p(v),它可以作为网页的重要程度的度量。 我们可以合理地设想:此时到达v的概率,依赖于上一个时刻到达“链向”v的网页的概率,以及那些网页中超链的个数。 Random walker model p(v) = ∑E[u,v]*p(u)/du, over u 这里,du是网页u的“出度”,∑E[u,v] over u。 ∑p(u) = 1 V u1 u2 u3 u4 u5 稳定时: Random Walker Model (continue) 改写一下,成 形式上和“声望”模型一样,只是矩阵L有行向量元素和为1的性质。 有用吗? Dangling Node(出度为0的节点) 对于这些节点,矩阵L对应着元素全0的行,元素和不为1 修正:L[u,v] = 1/N if du=0 Stochastic matrix 矩阵M,元素非负,每个行向量元素之和分别都等于1(亦称马尔科夫转移矩阵) L就是这种矩阵() 对应有一个特征值为1的特征向量 还有一点问题 上述“随机浏览”模型有稳态解的条件是:由网页形成的有向图允许通过链接关系访问到每一个网页 但有两个情况是破坏这条件的 图中形成“圈”(rank bounce) 有入度或者出度为0的点(rank sink) 因此该模型的表述通常要求所形成的图是irreducible(强连通)和aperiodic(不能有进去后出不来的圈)。 继续修改模型 让这浏览者每次以一定的概率(1-β)沿着超链走,以概率(β)重新随机选择一个新的起始节点 这在物理意义上即总是有可能跳进入度为0的点,跳出那些“圈”。在模型表达上即为 β选在0.1和0.2之间,被称作damping factor(Page Brin 1997) G=(1-β)LT+ β/N(1N) 被称为Google Matrix Google Matrix特征向量求解 Power Iteration方法: 给定Google Matrix G,记|λ1| ≥|λ2| ≥…,q1是属于λ1的特征向量 初始化向量p0,使得||p0||1=1 对于k = 1, 2, …,执行如下步骤 x = Gpk-1,

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档