大数据十大经典算法pagerank 讲解课件.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据十大经典算法pagerank 讲解课件

PageRank算法 一.Pagerank定义及终点,自连接点的概念 1.早期搜索引擎的弊端 2.Pagerank的定义 2.Pagerank的定义 3.终止点 4.自连接点 面向主题PageRank 动机 不同的人有不同的兴趣,而有时完全不同的兴趣却采用相同的查询词项来表达。如果搜索引擎能够推断出用户的兴趣,那么在返回相关页面的时候会表现得更好 比如用户搜索苹果 思路及公式 例子 假设β = 0.8 S={B,D}. 迭代过程: 面向主题的PageRank的使用 为了将面向主题的PageRank集成到搜索引擎中,我们必须 1.确定哪些主题需要构建特定的PageRank 2.对每个主题选择一个随机跳转集合,使用该集合来计算面向当前主题的PageRank向量值 3.对特定的搜索查询请求,寻找一种方法来确定最相关的主题和主题集合 4.对上述查询,应用步骤3中选出的主题和主题的集合的PageRank向量来返回应答结果。 上述过程第三步是最棘手的,现有一些解决方法: A.允许用户从菜单中选择一个主题 B.通过用户最近搜索查询或最近浏览的Web网页来推断主题 C.利用用户的信息(如用户的收藏夹或者社交网站上列出的兴趣)来推断主题 确定一个网页的所属类别可以使用“基于词汇的主题判断”方法 三、Link Spam与反作弊 Link Spam方法 Link Spam 链接农场 链接农场 Link Spam反作弊 Link Spam反作弊 四、权威页与导航页 本文观看结束!!! PageRank 能够对网页的重要性做出客观的评价 Page ? * 4、较重视链接的文字描述 Google会把链接的文字描述作为关键词加以索引 PageRank 能够对网页的重要性做出客观的评价。 PageRank 并不计算直接链接的数量,而是把从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。 3、变化较快、机动性较高 Google 漫游器会定期抓取 Web,把大量网页列入索引。稍后完成的下一次抓取会注意到新网站、对现有网站的更改以及失效的链接,并对内容的变化在搜索结果中加以调整。 Page ? * 权威页与导航页 某些网页提供某个主题的信息,而且具有非常重要的信息,这些网页被称为权威页 不提供主题信息,但可以找到有关该主题的网页信息,这样网页的被称为导航页 “导航页和权威页”的计算方式类似于pagerank,通过矩阵-向量的方式迭代,直到一个收敛的点。其算法又称HITS算法。 pagerank考虑的是网页重要性的一维重要性信息,而HITS认为网页具有二维的重要性信息: Page ? * 导航页与权威页 表示形式:每个网页都有一个权威度和导航度属性,若分别用h和a来表示网页的两个属性,那么h和a第j个分量就分别表示第j个网页的权威度值和导航度值。 每个网页的导航度就等于累加其链出网页的权威度,每个网页的权威度就等于累加其链入网页的导航度。并保证归一化。 单击此处添加段落文字内容 单击此处添加段落文字内容 这样会形成一个回归方程:“导航页会指向很多权威页,而权威页会被很多导航页指向”。本质上,其仍然是矩阵-向量的迭代乘法运算。 Page ? * 导航度与权威度的计算 若网页的链接矩阵为L,导航度向量h,权威度向量a。 则: h = d* L * a, 其中d是一个常数, 及 : a = u * Lt * h, 其中Lt是L的转置。 L是一个0-1矩阵。 由以上交迭的运算方式,再推导: h = d * u * L * Lt * h a = d * u * Lt * L * a 由于L*Lt的求解不太方便,所以,用交迭的方式来计算h和a更好,每次计算都需要进行归一化。 一小组:王高翔,李渠,刘晴,柳永康,刘昊骋 二小组: 王飞,李天照,赵俊杰,陈超,陈瑾翊 基本PageRank 面向主题PageRank Link Spam与反作弊 导航页与权威页 早期搜索引擎的弊端 Pagerank的定义 终止点 自连接点 早期很多搜索引擎根本不评价结果重要性,而是直接按照某自然顺序(例如时间顺序或编号顺序)返回结果。一旦结果集变大,简直就是一场灾难,这也注定这种方法不可能用于现代的通用搜索引擎 基于检索词评价的思想非常朴素:检索关键词出现次数越多的页面匹配度越高,而匹配度越高的页面重要性越高 作弊者可在他网页上增加一个词项,并将该词项重复千百次,搜索引擎可能以为该网页与检索关

文档评论(0)

gz2018gz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档