基于超链接分析的排序算法概要1.pptxVIP

下载本文档

2
0
约6.06千字
约 37页
2017-07-09 发布于湖北
举报
版权申诉

基于超链接分析的排序算法概要1.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于超链接分析的排序算法概要1

基于超链接分析的排序算法;搜索引擎排序算法概述超链接分析排序算法概述 PageRank算法 PageRank算法概述从入链数量到 PageRank PageRank算法原理 PageRank幂法计算 PageRank优缺点;搜索引擎排序算法，主要经历了三个阶段的发展历程：第一阶段，主要考虑关键词因素，统计关键词在文档中出现的频率和关键词在文档中出现的位置信息。词频位置加权算法应用广泛，发展也相对比较成熟，目前这种算法仍然是许多搜索引擎的核心排序算法。这类算法的代表为TF-IDF。第二阶段，考虑网页权重因素，网页本身的级别越高，在检索结果排序中越靠前。利用超链接分析，有效地计算网页的相关度与重要度，代表的算法有 PageRank ，HITS等。第三阶段，有效利用用户日志数据与统计学习方法，使网页相关度与重要度计算的精度有了进一步的提升，代表的方法包括排序学习、网页重要度学习、匹配学习、话题模型学习、查询语句转化学习。;超链接分析排序算法的思想起源于文献引文索引机制：一篇文章若被其他文章引用的次数越多或者被权威的论文引用，则该文章被认为很有价值。超链接分析的思想与上述思想极为相似，一个网页被其他网页引用的次数越多，或者被某一权威的网页所引用，该网页就显得越重要。;大部分链接分析算法建立在两个概念模型上：随机漫游模型：针对浏览网页用户行为建立的抽象概念模型，用户上网过程中会不断打开链接，在相互有链接指向的网页之间跳转，这是直接跳转，如果某个页面包含的所有链接用户都不感兴趣则可能会在浏览器中输入另外的网址，这是远程跳转。该模型就是对一个直接跳转和远程跳转两种用户浏览行为进行抽象的概念模型；典型的使用该模型的算法是PageRank；子集传播模型：基本思想是把互联网网页按照一定规则划分，分为两个甚至是多个子集合。其中某个子集合具有特殊性质，很多算法从这个具有特殊性质的子集合出发，给予子集合内网页初始权值，之后根据这个特殊子集合内网页和其他网页的链接关系，按照一定方式将权值传递到其他网页。典型的使用该模型的算法有HITS和Hilltop算法。 ;链接算法很多，从其概念模型???说，基本遵循上述介绍的随机游走模型和子集传播模型。而从图中可看出，在众多算法中，PageRank和HITS算法可以说是最重要的两个具有代表性的链接分析算法，后续的很多链接分析算法都是在这两个算法基础上衍生出来的改进算法。;PageRank，即网页排名，又称网页级别、Google左侧排名或佩奇排名。 Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期搜索系统原型时提出的链接分析算法。目前很多重要的链接分析算法都是在PageRank算法基础上衍生出来的。PageRank是Google用于用来标识网页的等级/重要性的一种方法。 ;PageRank的级别从0到10级，10级为满分。PR值越高说明该网页越受欢迎（越重要）。 PR值为7到10则表明这个网站非常受欢迎（或者说极其重要）。一般PR值达到4，就算是一个不错的网站了。 Google把自己的网站的PR值定到10。;早期的很多搜索引擎也采纳了入链数量作为链接分析方法，对于搜索引擎效果提升也有较明显的效果。 PageRank除了考虑到入链数量的影响，还参考了网页质量因素，两者相结合获得了更好的网页重要性评价标准。;对于某个互联网网页A来说，该网页PageRank的计算基于以下两个基本假设：? 数量假设：在Web图模型中，如果一个页面节点接收到的其他网页指向的入链数量越多，那么这个页面越重要。质量假设：指向页面A的入链质量不同，质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A，则页面A越重要。;PageRank的计算充分利用了数量假设和质量假设。步骤如下： 1）在初始阶段：网页通过链接关系构建起Web图，每个页面设置相同的PageRank值，通过若干轮的计算，会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行，网页当前的PageRank值会不断得到更新。 2）在一轮中更新页面PageRank得分的计算方法：在一轮更新页面PageRank得分的计算中，每个页面将其当前的PageRank值平均分配到本页面包含的出链上，这样每个链接即获得了相应的权值。而每个页面将所有指向本页面的入链所传入的权值求和，即可得到新的PageRank得分。当每个页面都获得了更新后的PageRank值，就完成了一轮PageRank计算。 ;基本思想：如果网页T存在一个指向网页A的连接，则表明T的所有者认为A比较重要，从而把T的一部分重要性得分赋予A。这个重要性得分值为： PR（T）/L(T) 其中PR（T）为T的PageRank值，L(T)为T的出链数; 则A的PageRank值为一