网站排名问题实验定积分的近似计算.docVIP

网站排名问题实验定积分的近似计算.doc

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网站排名问题实验定积分的近似计算

实验九 网站排名问题 一、问题背景与实验目的 几乎每个人都有使用Google搜索引擎进行网上搜索的体验.我们在Google搜索引擎中输入一些关键词后,Google会很快地找到所有与搜索关键词匹配的网页,并给出所有的网站排名情况(一般认为排在第一个的最重要,以下类推).到目前为止,世界上有近千万个网站,十多亿个网页,难道Google搜索引擎真的如此神奇,能够在几秒、几十秒的时间内扫遍世界上所有的网站(网页)吗?答案是否定的.事实上,Google网站是基于自己的大型数据库系统的网站,它定期地(比如每个月一次)对世界上的所有网站进行大搜索,并将结果保存在自己的数据库中.我们通过Google搜索引擎进行网上搜索,实际上是在Google网站的数据库里进行搜索,因此,所用时间一般不会太长. 要验证这一点并不难.假如你是一个“网管”,你可以控制一个网站,比如你可以很快地向网站发布信息(内含某些特殊的关键词).此后,你迅速利用Google搜索引擎搜索你刚才的关键词,一般情况下是找不到的. 我们关心的重点是:与某个关键词相关的网站可能有几个、几十、……、最多可能有几百万个,Google是如何给出网站排名情况的呢?本实验将要介绍的PageRank(网页级别)算法就是Google用于评测一个网页“重要性”的一种方法.虽然现在不断地有改善的排名算法,但其本质上与PageRank(网页级别)算法十分接近.相信如能彻底理解PageRank算法,对于理解、设计其它算法将是十分有益的.本实验将主要介绍该算法. PageRank算法用到的数学知识看上去并不十分高深,但十分实用.主要用到线性代数的一些知识,包括:正矩阵性质、特征向量与特征值关系、幂迭代方法(Power Iteration)和Gauss-Seidel迭代方法等. 实验中的一些程序看起来是小题大作,比如对已知的6阶方阵,用Matlab求解代数方程不是十分困难的事.但如若方阵的阶数是60、600、6000、60000,你的方法将可能彻底崩溃.因此,认真学习本实验的一些计算方法是有意义的.通过实践对比,你会发现这些算法的效率是相当高的,特别适合大规模计算.事实上,Google采用的是大规模的并行计算技术,以求解高达上亿阶的代数方程. 下面我们先简要介绍一下什么是PageRank算法. 什么是PageRank(网页级别)? PageRank(网页级别)是Google用于评测一个网页“重要性”的一种方法.在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“重要性”的网页在搜索结果中令网站排名获得提升,从而提高搜索结果的相关性和质量. 简单说来,Google通过下述几个步骤来实现网页在其搜索结果页(SERPS)中的排名: 1) 找到所有与搜索关键词匹配的网页; 2) 根据页面因素如标题\关键词密度等排列等级; 3) 计算导入链接的锚文本中的关键词; 4) 通过PageRank得分调整网站排名结果. 事实上,真正的网站排名过程并不是这么简单,读者可参见有关网站,获得更详细、深入的阐述. 2.PageRank的决定因素 Google的PageRank是基于这样一个理论:若B网页设置有连接A网页的链接(B为A的导入链接时),说明B认为A有链接价值,是一个“重要”的网页.当B网页级别(重要性)比较高时,则A网页可从B网页这个导入链接分得一定的级别(重要性),并平均分配给A网页上的导出链接. 导入链接(也叫逆向链接)指链至你网站的站点,也就是我们一般所说的“外部链接”.而当你链至另外一个站点,那么这个站点就是你的“导出链接”,即你向其它网站提供的本站链接. PageRank反映了一个网页的导入链接的级别(重要性).所以一般说来,PageRank是由一个网站的导入链接的数量和这些链接的级别(重要性)所决定的. 3.如何知道一个网页的PageRank得分 可从上下载并安装Google的工具栏,这样就能显示所浏览网页的PageRank得分了.PageRank得分从0到10,若不能显示PageRank得分,可检查所安装版本号,需将老版本完全卸载,重启机器后安装最新版本即可. 4.PageRank的重要性 搜索引擎网站排名算法中的各排名因子的重要性均取决于它们所提供信息的质量.但如果排名因子具有易操纵性,则往往会被一些网站管理员利用来实现不良竞争.例如初引入的排名因子之一 —关键词元标识(Meta Keywords),是由于理论上它可以很好地概括反映一个页面的内容,但后来却由于一些网站管理员的恶意操纵而不得不黯然退出.所以“加权值” —即我们对该因子提供信息的信任程度是由排名因子的易操纵程度和操纵程度共同决定的. PageRank无疑是颇难被操

文档评论(0)

weizhent2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档