同济大学计算机前沿技术概论 第8章_网页排名算法.ppt

同济大学计算机前沿技术概论 第8章_网页排名算法.ppt

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
? Tongji University , Computer Science and Technology. Information Retrieval Search Engine PageRank: * 信息检索和搜索引擎 网页排名算法:PageRank 同济大学 计算机科学与技术 计算机前沿技术导论 Introduction to Frontiers in Computer Science 主要内容 信息检索的重要性 搜索引擎的原理 网页排名算法:PageRank(重点) 2010年的第一期《自然》杂志评选出未来10年内最重要的技术:互联网搜索技术排在第一位 今年是英国皇家学会成立350周年,评选近几百年来开创性成果:基于语义的信息检索被列为其中之一 The Web 广告索引库 Web Spider 网络爬虫 索引器 索引库 Search 用户 问题:搜索引擎怎么知道哪个网页排在前面,哪个排在后面呢?即如何衡量网页的重要性? 网页排序结果 付费广告 网页排名是网络搜索引擎的核心 PageRank 是著名网络搜索引擎 Google 用于评测一个网页 “重要性” 或 “影响力” 的一种方法 Google 的 PageRank是基于这样一个理论: 若 B 网页上有连接到 A 网页的链接 ,说明 B 认为 A 有链接价值,是一个“重要”的网页 一个网页的重要性大致由下面 两个因素决定: 该网页的导入链接的数 这些导入链接的重要性 B A 问题 先有鸡还是先有蛋? 页面C 页面A 页面B 页面D Internet的拓扑结构 100 9 ? 50 53 可以用图论这种数学 工具来解决这类问题 50 3 例:右图为一个有向图,记为 D 顶点组成的集合:V(D)={u,v,w} 弧组成的集合: A(D)={(u,w),(w,u),(u,v)} 有向图 顶点的出度(Out-degree) 顶点的入度(In-degree) 顶点 u 的出度: 顶点 u 的入度: od(u)=2 id(u)=1 如何表示这个图,以便更好计算PageRank值呢? 为研究需要,我们定义邻接矩阵 对于下例 中的有向图,其邻接矩阵为 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 超链接矩阵的特点: 所有元素非负 每列元素的总和为1 进一步,如果将邻接矩阵中的元素除以对应节点的出度,可以得到该图的超链接矩阵 随机矩阵 (Stochastic Matrix) 马尔可夫矩阵 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 I 是 H 的对应于特征值 ?=1 的特征向量 数学的奇妙:原来不知如何下手的互联网页的排序问题,现在已经轻而易举地变成了求解矩阵H的特征向量问题 定理:超链接矩阵H的最大特征向量即为该矩阵的PageRank值 I?0 1 0 0 0 0 0 0 0 幂迭代方法 I?1 0 0.5 0.5 0 0 0 0 0 I?2 0 0.25 0 0.5 0.25 0 0 0 I?3 I?4 ... I?60 0 0.0278 ... 0.06 0.1667 0.0833 ... 0.0675 0 0 ... 0.03 0.25 0.1667 ... 0.0675 0.1667 0.1111 ... 0.0975 0.25 0.1806 ... 0.2025 0.0833 0.0972 ... 0.18 0.0833 0.3333 ... 0.295 I?61 0.0600 0.0675 0.0300 0.0675 0.0975 0.2025 0.1800 0.2950 第一步:将互联网作为一个有向图,并用邻接矩阵进行表示; 第二步:将该邻接矩阵转换为超链接矩阵; 第三步:求解该超链接矩阵的最大特征向量(如幂迭代法); 第四步:求得的特征向量中的值即为对应网页的PageRank值。 PageRank 算法中使用的数学知识包括:矩阵的性质、特征值和特征向量、幂迭代方法等 这一漂亮的想法出自于Stanford大学1998年在读博士研究生Larry Page和Sergey Brin 第七次国际World Wide Web会议(WWW’98)上的论文“The PageRank citation ranking:Bringing order to the Web” 幂迭代方法中的?I?k?一定收敛吗? ?I?k?

文档评论(0)

qwd513620855 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档