利用集中网站进行WEB搜索的优化策略.docVIP

  • 3
  • 0
  • 约2.45千字
  • 约 6页
  • 2017-03-03 发布于北京
  • 举报

利用集中网站进行WEB搜索的优化策略.doc

利用集中网站进行WEB搜索的优化策略.doc

利用集中网站进行WEB搜索的优化策略   【摘 要】提高Web信息搜索的效率,改善搜索的性能,是信息检索领域一个重要的研究课题。本文利用爬山算法求得针对特定类别的最小集中网站集,再通过网页聚类,找到能获得最完全而准确信息的网页序列,从而提高Web搜索的速度和准确率。 【关键词】Web信息搜索 集中网站 爬山算法 聚类 相似度 搜索引擎(Search engine)是目前Web信息检索的主要工具,它所提供的导航服务已经成为互联网上非常重要的网络服务,但在查询速度与查准率、查全率等方面还具有较大的局限性。研究发现,网站集合中的一部分网站就已经包含了几乎全部网页信息,这样的最小覆盖网站子集被称为集中网站[1],因此找到这样的集中网站就可以提高搜索引擎的搜索效率。另外,分析Web网页间的超链接结构并充分利用,可以提高检索的质量。基于这种超链分析的思想,在1998年,Serger Brin和Lawrence Page提出了PageRank[2]算法。同年,J.Kleinberg提出了HITS[3]算法,还有其他一些研究者相继提出了一些改进算法,如SALSA、PHITS等,在实际应用中取得了良好的效果。 由于最小集中网站是针对某一特定分类而言,因此下面的工作是假定在已得到某一特定类网站集的基础上而做的。 求集中网站的问题可以看作是求图的最小顶点覆盖问题,经证明是NP完全问题,考虑采用一种启发式

文档评论(0)

1亿VIP精品文档

相关文档