数据挖掘以及搜引擎经典pptchap8.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘以及搜引擎经典pptchap8

* * * * * * * * * * * * * * * * * * * * * Page Rank 2007-04-18 相关排序与系统质量评估 结果排序是搜索引擎技术最重要的一个方面 传统IR方法的成功有两个重要的内在假设: 1:被索引的信息本身有很高的质量,至少在信息的组织和内容上有着比较高的质量 2:检索信息的用户有一定的相关技能和知识 然而,这些假设在Web上都已不再成立: 1:Web上网页的质量参差不齐,大量的网页组织性,结构性比较差 2:大部分检索用户是没有任何经验的。 Page Rank 历史 Sergey Brin和Lawrence Page在1998年提出了PageRank算法,同年J. Kleinberg提出了HITS算法 Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, The PageRank Citation Ranking: Bringing Order to the Web, 1998, /~backrub/pageranksub.ps 为了更高效地计算 PageRank,以下是改良以后的一篇论文。Taher H. Haveliwala, ‘Efficient Computation of PageRank’, Stanford Technical Report, 1999, :8090/pub/1999-31 PageRank(TM) 是美国 Google 公司的登记注册商标。 PageRank算法1 其中,PR(A)表示页面A的级别,页面Ti链向页面A, C(Ti) 是页面Ti 链出的链接数量 d取值在0到1之间,d也称为阻尼系数,由于用户不可能无限的单击下去,常常因劳累而随机跳入另一个页面 1-d则是页面本身所具有的网页级别。 PageRank算法2 PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 其中N是互联网上所有网页的数量 PageRank 的核心思想 PageRank 是基于「从许多优质的网页链接过来的网页,必定还是优质网页」的回归关系,来判定所有网页的重要性。 反向链接数 (单纯的意义上的受欢迎度指标) 反向链接是否来自推荐度高的页面 (有根据的受欢迎指标) 反向链接源页面的链接数 (被选中的几率指标) 因此,如果从类似于 Yahoo! 那样的 PageRank 非常高的站点被链接的话,仅此网页的 PageRank 也会一下子上升;相反地,无论有多少反向链接数,如果全都是从那些没有多大意义的页面链接过来的话,PageRank 也不会轻易上升。 PageRank算法 Google采用了一种近似的迭代方法计算网页级别,即先给每个网页赋予一个初值,然后利用上面的公式,循环进行有限次运算得到近似的网页级别 Sergey Brin and Lawrence Page的论文显示,实际进行大约100次迭代才能得到整个网络的网页级别。中等规模的网站计算26‘000’000网页的PageRank值要花费几小时 Web行列阵的形式 Aij=1 if (页面 i 链接页面 j ) otherwise 0 AT : A 的转置。 = C(Ti) S (i,j) = A’(i.j) / C(Tj) Computing PageRank - initialize vector over web pages loop: - new ranks sum of normalized backlink ranks - compute normalizing factor - add escape term - control parameter while - stop when converged PageRank实例 链接源I D 链接目标 ID 1 2,3 ,4,5, 7 2 1 3 1,2 4 2,3,5 5 1,3,4,6 6 1,5 7 5

文档评论(0)

jixujianchi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档