基于结构挖掘排序算法研究综述.docVIP

下载本文档

5
0
约4.47千字
约 9页
2018-06-23 发布于福建
举报
版权申诉

基于结构挖掘排序算法研究综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于结构挖掘排序算法研究综述

基于结构挖掘排序算法研究综述　　【摘要】随着Internet的迅猛发展，Web成为了人们获取信息的重要途径。但是，网页数量的与日剧增，信息量的爆炸式增长，也为人们的信息查询带来了不便。Web数据挖掘技术的引入提高了检索质量，特别是Web结构挖掘在搜索引擎中的应用，很好地帮助用户快速从搜索结果中锁定对自己真正有用的信息。本文对基于结构挖掘的排序算法进行了大量搜集分析，并进行了归纳总结。　　【关键词】结构挖掘；PageRank；HITS 　　【中图分类号】 TP3 【文献标识码】 A 　　1 引言　　随着全球网络的迅猛发展，Web成为了人们获取信息的重要途径。网络上的页面与日俱增，截止2008年，网页数量已超过1万亿。要从如此巨大的网络资源中快速查找到所需的信息是一项具有挑战性的任务，它需要一个强大的搜索引擎。目前，网络上流行的搜索引擎有Google、Yahoo、搜狐、百度等。这些搜索引擎使用起来简单，并且还融入了高级检索、分类查找等功能，方便了用户搜索各种信息。但现有的搜索引擎技术有限，还不能抓取到网络的所有页面，例如，搜索引擎Google能检索到的最大网页数量仅为总网页的29.2%。即使这个范围内，网页的数量也是十分庞大的，用户要从中浏览到自己所需要的页面将花掉大量时间。因此，如何提供一种高效、准确的算法对搜索结果进行排序，使得最可能符合用户需求的页面排在搜索结果的最靠前的位置，是提高搜索引擎能力的重要研究内容，它可让用户更快捷地获取所需的检索信息。　　传统的Web搜索引擎排序算法大多都是基于关键字匹配的，关键字出现频率高的页面往往在搜索结果中的排名靠前，这种方法简单、有效。但如果站点有意提高关键字出现的频率，将影响搜索结果的客观性和准确性。因此，如何将查询主题的相关性和搜索页面本身的权威性等重要指标引入Web挖掘及其结果的排序中是研究和改进搜索引擎排序算法的有效途径。　　2 研究现状　　如何利用Web结构挖掘理论和技术进行Web挖掘受到许多学者和研究机构的重视。近年来，利用超链接挖掘中的链接分析思想为搜索引擎结果进行排序的研究已有不少的算法研究成果，如PageRank， HITS???Hyperlink-Induced Topic Search）， SALSA（Stochastic Approach for Link-Structure Analysis）， PHITS ， Bayesian等。利用这些研究成果进行搜索引擎结果排序已经收到很好的效果。其中，对PageRank和HITS的研究最为广泛，如HRank （HubRank）， dPageRank （DistributedRank）， VSM-HITS（Vecter Space Model-HITS）算法。事实上，PageRank和HITS及其各种变体算法已被各种搜索引擎系统所吸收（如Google）。　　1998年提出的PageRank算法通过页面的入度（入链个数）和出度（出链个数）计算网络中各个页面的权威等级，以此为基础进行搜索结果的排序是一种独立于查询的排序。事实上它是Google的核心技术。1999年Kleinberg提出了HITS算法，算法引入权威度和中心度综合权衡页面的重要性，并用于搜索引擎结果的排序，它本质上是一种依赖于查询的算法。　　国内外一些学者和研究机构从主题相似、算法收敛速度、算法运行的有效性和高效性等方面对传统的PageRank进行了各种改进。例如，文献[11]提出了主题敏感的PageRank算法，该算法根据Open Directory建立了16个基本主题向量，离线计算出每个网页对于这些基本主题向量的PageRank值。为了提高PageRank算法中稀疏矩阵的收敛速度，提出了艾特肯外推法和二次外推法、基于I/O的PageRank加速算法、降低冗余迭代次数的PageRank适应性算法。基于P2P网络的分布式PageRank算法，各结点采用异步方式进行通信，很好地解决了链接失效问题并且具有很好的收敛性。考虑到串行计算整个网络的PageRank值时不仅大量消耗系统资源而且很耗时，提出了并行计算PageRank值的算法。通过多台服务器同时运算，算法的收敛速度大大提高。　　在对HITS的改进工作中， ARC（Automatic Resource Compilation）算法，它在赋予页面集对应的链接矩阵的初值时结合了锚（Anchor）文本，适应了不同的链接具有不同的权值的情形。Lemple和Moran利用马尔可夫链的概念提出了SALSA（Stochastic Approach for Link-Structure Analysis）算法，该算法弱化了权威页面和中心页面之间的关系。Saeko等提出