大数据精典算法PageRank讲解.ppt

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据精典算法PageRank讲解

PageRank算法;一.Pagerank定义及终点,自连接点的概念;1.早期搜索引擎的弊端; Pagerank思想: “被越多优质的网页所指的网页,它是优质的概率就越大”; Pagerank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于,网页的Pagerank越高,那么它就越“重要”。 首先,我们将Web做如下抽象:1、将每个网页抽象成一个节点;2、如果一个页面A有链接直接链向B,则存在一条有向边从A到B。因此,整个Web被抽象为一张有向图。;;设初始时每个页面的rank值为1/N,这里就是1/4。按A-D顺序将页面rank为向量v: 第一步之后,冲浪者的概率分布为Mv; 第二步之后,冲浪者的概率分布为M2v; 第i步之后,依次类推,可得冲浪者经过i步 之后的位置概率分布向量为Miv。 我们可以从初向量v出发,不断左乘矩阵M, 直到前后两轮迭代产生的结果向量差异很小 时停止,从而得到M的主特征向量。 实际上,对于Web本身而言,迭代50-75次 已经足够收敛。 ;3.终止点;双击添加 标题文字;单击添加;单击此处添加段落文字内容;单击此处添加段落文字内容;单击此处添加段落文字内容;面向主题PageRank;动机;思路及公式;例子 ;迭代过程:;面向主题的PageRank的使用;三、Link Spam与反作弊;Link Spam方法;Link Spam;链接农场;链接农场;Link Spam反作弊;Link Spam反作弊;四、权威页与导航页;Page ? *;Page Rank判断页面重要性;PageRank 能够对网页的重要性做出客观的评价;PageRank 能够对网页的重要性做出客观的评价;Page ? *;Page ? *;Page ? *

文档评论(0)

shaoye348 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档