基于结构挖掘排序算法探究综述.docVIP

  • 1
  • 0
  • 约4.47千字
  • 约 8页
  • 2017-11-08 发布于福建
  • 举报
基于结构挖掘排序算法探究综述

基于结构挖掘排序算法探究综述   【 摘 要 】 随着Internet的迅猛发展,Web成为了人们获取信息的重要途径。但是,网页数量的与日剧增,信息量的爆炸式增长,也为人们的信息查询带来了不便。Web数据挖掘技术的引入提高了检索质量,特别是Web结构挖掘在搜索引擎中的应用,很好地帮助用户快速从搜索结果中锁定对自己真正有用的信息。本文对基于结构挖掘的排序算法进行了大量搜集分析,并进行了归纳总结。 【 关键词 】 结构挖掘;PageRank;HITS 【 中图分类号 】 TP3 【 文献标识码 】 A 1 引言 随着全球网络的迅猛发展,Web成为了人们获取信息的重要途径。网络上的页面与日俱增,截止2008年,网页数量已超过1万亿。要从如此巨大的网络资源中快速查找到所需的信息是一项具有挑战性的任务,它需要一个强大的搜索引擎。目前,网络上流行的搜索引擎有Google、Yahoo、搜狐、百度等。这些搜索引擎使用起来简单,并且还融入了高级检索、分类查找等功能,方便了用户搜索各种信息。但现有的搜索引擎技术有限,还不能抓取到网络的所有页面,例如,搜索引擎Google能检索到的最大网页数量仅为总网页的29.2%。即使这个范围内,网页的数量也是十分庞大的,用户要从中浏览到自己所需要的页面将花掉大量时间。因此,如何提供一种高效、准确的算法对搜索结果进行排序,使得最可能符合用户需求的页面排在搜索结果的最靠前的位置,是提高搜索引擎能力的重要研究内容,它可让用户更快捷地获取所需的检索信息。 传统的Web搜索引擎排序算法大多都是基于关键字匹配的,关键字出现频率高的页面往往在搜索结果中的排名靠前,这种方法简单、有效。但如果站点有意提高关键字出现的频率,将影响搜索结果的客观性和准确性。因此,如何将查询主题的相关性和搜索页面本身的权威性等重要指标引入Web挖掘及其结果的排序中是研究和改进搜索引擎排序算法的有效途径。 2 研究现状 如何利用Web结构挖掘理论和技术进行Web挖掘受到许多学者和研究机构的重视。近年来,利用超链接挖掘中的链接分析思想为搜索引擎结果进行排序的研究已有不少的算法研究成果,如PageRank, HITS(Hyperlink-Induced Topic Search), SALSA(Stochastic Approach for Link-Structure Analysis), PHITS , Bayesian等。利用这些研究成果进行搜索引擎结果排序已经收到很好的效果。其中,对PageRank和HITS的研究最为广泛,如HRank (HubRank), dPageRank (DistributedRank), VSM-HITS(Vecter Space Model-HITS)算法。事实上,PageRank和HITS及其各种变体算法已被各种搜索引擎系统所吸收(如Google)。 1998年提出的PageRank算法通过页面的入度(入链个数)和出度(出链个数)计算网络中各个页面的权威等级,以此为基础进行搜索结果的排序是一种独立于查询的排序。事实上它是Google的核心技术。1999年Kleinberg提出了HITS算法,算法引入权威度和中心度综合权衡页面的重要性,并用于搜索引擎结果的排序,它本质上是一种依赖于查询的算法。 国内外一些学者和研究机构从主题相似、算法收敛速度、算法运行的有效性和高效性等方面对传统的PageRank进行了各种改进。例如,文献[11]提出了主题敏感的PageRank算法,该算法根据Open Directory建立了16个基本主题向量,离线计算出每个网页对于这些基本主题向量的PageRank值。为了提高PageRank算法中稀疏矩阵的收敛速度,提出了艾特肯外推法和二次外推法、基于I/O的PageRank加速算法、降低冗余迭代次数的PageRank适应性算法。基于P2P网络的分布式PageRank算法,各结点采用异步方式进行通信,很好地解决了链接失效问题并且具有很好的收敛性。考虑到串行计算整个网络的PageRank值时不仅大量消耗系统资源而且很耗时,提出了并行计算PageRank值的算法。通过多台服务器同时运算,算法的收敛速度大大提高。 在对HITS的改进工作中, ARC(Automatic Resource Compilation)算法,它在赋予页面集对应的链接矩阵的初值时结合了锚(Anchor)文本,适应了不同的链接具有不同的权值的情形。Lemple和Moran利用马尔可夫链的概念提出了SALSA(Stochastic Approach for Link-Structure Analysis)算法,该算法弱化了权威页面和中心页面之间的关系。Saeko等提出的空间投

文档评论(0)

1亿VIP精品文档

相关文档