网站大量收购独家精品文档,联系QQ:2885784924

(大数据十大经典算法PageRank 讲解PPT.pptVIP

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(大数据十大经典算法PageRank 讲解PPT

PageRank算法 一.Pagerank定义及终点,自连接点的概念 1.早期搜索引擎的弊端 2.Pagerank的定义 2.Pagerank的定义 3.终止点 4.自连接点 面向主题PageRank 动机 不同的人有不同的兴趣,而有时完全不同的兴趣却采用相同的查询词项来表达。如果搜索引擎能够推断出用户的兴趣,那么在返回相关页面的时候会表现得更好 比如用户搜索苹果 思路及公式 例子 假设β = 0.8 S={B,D}. 迭代过程: 面向主题的PageRank的使用 为了将面向主题的PageRank集成到搜索引擎中,我们必须 1.确定哪些主题需要构建特定的PageRank 2.对每个主题选择一个随机跳转集合,使用该集合来计算面向当前主题的PageRank向量值 3.对特定的搜索查询请求,寻找一种方法来确定最相关的主题和主题集合 4.对上述查询,应用步骤3中选出的主题和主题的集合的PageRank向量来返回应答结果。 上述过程第三步是最棘手的,现有一些解决方法: A.允许用户从菜单中选择一个主题 B.通过用户最近搜索查询或最近浏览的Web网页来推断主题 C.利用用户的信息(如用户的收藏夹或者社交网站上列出的兴趣)来推断主题 确定一个网页的所属类别可以使用“基于词汇的主题判断”方法 三、Link Spam与反作弊 Link Spam方法 Link Spam 链接农场 链接农场 Link Spam反作弊 Link Spam反作弊 四、权威页与导航页 因为图的特定结构查找是时间复杂度非常高的一个算法,不可能完全靠这种方法反作弊。 一小组:王高翔,李渠,刘晴,柳永康,刘昊骋 二小组: 王飞,李天照,赵俊杰,陈超,陈瑾翊 基本PageRank 面向主题PageRank Link Spam与反作弊 导航页与权威页 早期搜索引擎的弊端 Pagerank的定义 终止点 自连接点 早期很多搜索引擎根本不评价结果重要性,而是直接按照某自然顺序(例如时间顺序或编号顺序)返回结果。一旦结果集变大,简直就是一场灾难,这也注定这种方法不可能用于现代的通用搜索引擎 基于检索词评价的思想非常朴素:检索关键词出现次数越多的页面匹配度越高,而匹配度越高的页面重要性越高 作弊者可在他网页上增加一个词项,并将该词项重复千百次,搜索引擎可能以为该网页与检索关键词高度相关而把该网页放在搜索结果的前列 Pagerank思想: “被越多优质的网页所指的网页,它是优质的概率就越大” Pagerank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于,网页的Pagerank越高,那么它就越“重要”。 首先,我们将Web做如下抽象:1、将每个网页抽象成一个节点;2、如果一个页面A有链接直接链向B,则存在一条有向边从A到B。因此,整个Web被抽象为一张有向图。 一个N维矩阵,其中i行j列的值表示用户从页面j转到页面i的概率。这样一个矩阵叫做转移矩阵 、 对应的转移矩阵如左图 设初始时每个页面的rank值为1/N,这里就是1/4。按A-D顺序将页面rank为向量v: 第一步之后,冲浪者的概率分布为Mv; 第二步之后,冲浪者的概率分布为M2v; 第i步之后,依次类推,可得冲浪者经过i步 之后的位置概率分布向量为Miv。 我们可以从初向量v出发,不断左乘矩阵M, 直到前后两轮迭代产生的结果向量差异很小 时停止,从而得到M的主特征向量。 实际上,对于Web本身而言,迭代50-75次 已经足够收敛。 一个没有出链的网页称为终止点。 这里D页面不存在外链,是一个终止点。由矩阵论的知识可推知,迭代结果将最终归零。 那么该如何处理终止点呢? 迭代拿掉图中的终止点及终止点相关的边(之所以迭代拿掉是因为当目前的终止点被拿掉后,可能会出现一批新的终止点),直到图中没有终止点。对剩下部分计算rank,然后以拿掉终止点逆向顺序反推终止点的rank值。 如下图,D有外链所以不是终止点,但是它只链向自己(注意链向自己也算外链,当然同时也是个内链)。这种节点叫做自连接点,如果对这个图进行计算,会发现D的rank越来越大趋近于1,而其它节点rank值几乎归零。 单击添加 击添加 为了克服这种问题,需要对PageRank计算方法进行一个平滑处理,具体做法是加入“跳转因子(teleporting)”。所谓跳转因子,就是我们认为在任何一个页面浏览的用户都有可能以一个极小的概率瞬间转移到另外一个随机页面。当然,这两个页面可能不存在超链接,因此不可能真的直接转移过去,跳转因子只是为了算法需要而强加的一种纯数学意义的

文档评论(0)

ozprb1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档