内网搜索引擎算法分析与研究.docVIP

下载本文档

4
0
约4.33千字
约 10页
2018-06-23 发布于福建
举报
版权申诉

内网搜索引擎算法分析与研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

内网搜索引擎算法分析与研究

内网搜索引擎算法分析与研究　　摘要：近年来，Intranet不断飞速发展，导致信息量趋于庞大。于是如何让用户查找到自己想要的信息成为Intranet搜索引擎的一个难题。关于这个问题，它将对几种经典的Intranet搜索排序算法进行分析、比较。希望在以后的开发中可以以它为参照，进行相关算法的改进，尽可能的让算法更接近完美，使搜索结果更能符合用户的需求。　　关键词：搜索引擎；算法；原理；特点；PageRank；HITS 　　中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2014）01-0120-03 　　1 概述　　随着社会的发展，各种信息的飞速增长，搜索引擎成为了人们查找信息的首选工具。搜索引擎的研究，国外比中国要早近10年，但国内还是陆续涌现出优秀的搜索引擎，如：百度、中搜。伴随着搜索技术的成熟，Intranet搜索引擎将成为获取信息、掌握知识的利器。而面对云信息时代的到来，传统的搜索引擎提供的服务已不能满足人们日益增长的对个性化服务的需要。因此，搜索引擎还将有较大的发展和进步空间，检索功能将更趋向于集成化和更具亲和力、更显人性化。　　算法是搜索引擎的灵魂，要改善搜索服务实质上就是改进算法。要想在现有的算法基础上进一步改进，就要先了解它。该文的先对两种经典算法PageRank和HITS进行了分析和比较，并指出它们各自的优缺点。还对这两种算法的延伸算法Hilltop、SALSA进行了介绍，他们融合了HITS和PageRank两个算法的基本思想。最后指出了当前算法仍有的问题和改进方向。　　2 两种经典的算法　　PageRank算法和HITS算法都是比较经典的搜索引擎算法。许多算法都是在它们的基础上进行改进的，是搜索引擎算法分析的两个最基础且最重要的算法。　　2.1 PageRank算法　　PageRank算法是在1998年由Sergey Brin和Lawrence Page提出的[1]。该算法是从“被许多好的网页引用的网页一定是好网页”的关系出发，来确定一个网页的质量。当一个网页被很多其他网页包含，那么该网页很可能是一个高质量网页；然而假如有一个网页它的链接没有被许多网页页所包含，而它却拥有一个优质网页的链接指向，则它或许也是高质量网页；一个网页的重要性值被平均分配并传递到??所引用的所有网页中。当用户随机的浏览当前网页集以外的某网页时，将要访问的网页的可能性值等于被访问网页的PageRank值。　　PageRank算法原理：首先根据网页之间链接的引用关系建立关系图，并给最底层的每个页面赋予同样的PageRank初始值；再根据网页间的引用关系把它的值平均分配给它引用了的所有页面；最后，将各个页面自己所拥有的所有通过引用传过来的值求和就是它的PageRank值。通过这样层层计算，所有页面最终求得它的PageRank值。根据每一遍的计算跟进，各个网页不断更新自己的PageRank值。如图1是一个简单的计算实例。　　　　图1 PageRank计算实例　　由图可得：PageRank（14） = PageRank（12）/2 + PageRank（24）/3 = 6 + 8 = 14 　　PageRank算法特点：它是一个与查询主题不相关的离线求值算法，全部PageRank值在查询前就预先计算获得；极大的减少了有搜索到达时才来查询的计算量，使得搜索更迅速。但是这种方法忽略了结果和用户查询相关与否，采用了平均分配权值反而对一些新的网页存在不公平现象。这导致旧网页权值高、查询到无关结果等。　　2.2 HITS算法　　HITS（Hyperlink-Induced Topic Search）算法是由康奈尔大学（Cornell University）的Jon Kleinberg博士于1997年首次提出的。该算法将网页分为两种类型：Authority页面和Hub页面。Authority页面是指某个方面或主题非常相关的优质网页；Hub 页面是指引用了许多优质页面的网页，例如：hao123等。HITS算法认为好的Hub页面会指向很多好的Authority页面；当然好的Authority页面也会有许多Hub页面所指向[3]。　　HITS算法只计算与主题比较接近的页面，它由一个页面的入链数量来计算它的Authority权值，再根据该页面的出链数量计算它的Hub权值。通过迭代计算和定义的收敛闭值不断的对Authority权值和Hub权值进行更新，直至结果收敛[2]。最后找出一定数量Authority权值和Hub权值都比较高的页面作为最佳页面集。　　算法原理：　　1）获取根集：用传统的搜索引擎对用户搜索的关键词进行搜索，获得与主题相关的网页，从这些网页中拿出一些