- 1、本文档共33页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网页排序算法PageRank
PageRank ——Google网页搜索核心技术 东北大学 数学系 王琪 wangqimath@ Google简介 1998年由斯坦福大学计算机系的博士研究生Larry Page 和Sergey Brin创办。 现在: 未来: Google搜索核心算法 网页级别(PageRank) 按网页链接广泛程度判断网页重要性,是Google中表示网页重要性的综合性指标。 页面分析(PageAnalysis) 按页面标题是否出现关键词、网页内关键词出现的频率及关键词出现的位置确定哪些网页与正在执行的搜索密切相关。 PageRank对搜索结果的影响 结合了所有网页重要性和相关性指标,Google将最相关和最可靠的结果放在搜索结果的顶端。 一般而言,PageRank对于排名的影响比页面分析还高。 PageRank算法思想简介 基本依据: PageRank 基于假设关系——“许多优质的网页链接的网页,必定是优质网页”,判定所有网页的重要性。 PageRank要点 大致有3个: 链入链接数 单纯意义上的受欢迎度指标 链入链接是否来自受欢迎程度高的页面 有根据的受欢迎指标 链入链接源页面的链出链接数 被选中的概率指标 PageRank计算 互联网是一个有向图 每一个网页是图的一个顶点 网页间的每一个超链接是图的一个有向边 用邻接矩阵来表示图,即:定义邻接矩阵为G,若网页j到网页i有超链接,则 ;反之, 。 显然,如果网页有N 个,则矩阵为N×N 的0、1方阵。 PageRank的计算 定义邻接矩阵为G,若网页j到网页i有超链接,则 ;反之, 。 记矩阵G的列和、行和分别是 它们分别给出了页面j的链出链接数目和链入链接数目 PageRank的计算 假设我们在上网的时侯浏览页面并选择下一个页面,这个过程与过去浏览过哪些页面无关,而仅依赖于当前所在的页面,那么这一选择过程可以认为是一个有限状态、离散时间的随机过程,其状态转移规律用Markov链描述。 定义转移概率矩阵 PageRank的计算 根据Markov链的基本性质,对于正则Markov链,存在平稳分布 ,满足 表示在极限状态(转移次数趋于无限)下各网页被访问的概率分布。 定义为网页的PageRank向量, 表示第i个网页的PageRank值 某7个网页之间的链接关系图 网页链接图的邻接矩阵 0 1 1 0 1 1 0 1 0 1 1 0 0 0 1 0 0 1 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 1 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0 PageRank的计算 PageRank的计算 7个网页的PageRank值 PageRank结果的评价 将 PageRank 的评价按顺序排列(PageRank小数点3位四舍五入): 页面之间相互关系及状态转移图 PageRank结果的评价 首先应该关注的是,PageRank的名次和链入链接的数目是基本一致的。无论链接多少链出链接都几乎不会影响PageRank,相反地有多少链入链接却是从根本上决定PageRank的大小。 但是,仅仅这些并不能说明第1位和第2位之间的显著差别,在链入链接相同的情况下,链出链接数也影响PageRank的大小。(同样地、第3位和第4位,第6位和第7位之间的差别)。 总之,绝妙之处在于PageRank并不只是通过链入链接数来决定的。 PageRank结果的评价 让我们详细地看一下。ID=1 的页面的PageRank 是0.304,占据全体的三分之一,成为了第1位。特别需要说明的是,起到相当大效果的是从排在第3位的 ID=2 页面中得到了所有的PageRank (0.166) 数。ID=2页面有从3个地方过来的链入链接,而只有面向 ID=1页面的一个链接,因此(面向ID=1页面的)链接就得到了所有的PageRank数。不过,就因为ID=1页面是链出链接和链入链接最多的页面,也可以理解它是最受欢迎的页面。 PageRank结果的评价 反过来,最后一名的 ID=6 页面只有 ID=1 的15%的
您可能关注的文档
- 大学生理财策划.doc
- 镇机关干部学法测试题.doc
- 3.2特殊平行四边3...doc
- 氯乙酸钠.doc
- 第四章命题与证明2讲义.doc
- 初二第一学期期中考试英语试卷3.doc
- 感冒相关知识.doc
- 发酵工程8-4泡沫对发酵的影响与控制.ppt
- 青铜与商朝文化.ppt
- 关于针对怎样突破120高考数学题型分布与答题策略.doc
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
- DB62T 4172-2020 玉米品种 酒623规范.pdf
- DB62T 4160-2020 在用真空绝热深冷压力容器综合性能在线检测方法.pdf
- DB62T 4164-2020 辣椒品种 酒椒1号.pdf
- DB62T 4133-2020 公路隧道地质超前预报机械能无损探测技术规程.pdf
文档评论(0)