基于Java技术的搜索引擎基本组成和数据结构探究.docVIP

 基于Java技术的搜索引擎基本组成和数据结构探究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
 基于Java技术的搜索引擎基本组成和数据结构探究

基于Java技术的搜索引擎基本组成和数据结构探究 基于Java技术的搜索引擎基本组成和数据结构探究 随着互联网信息技术的快速发展,搜索引擎在全文检索技术上开始逐步发展起来。全文检索技术是搜索引擎的技术基础。全文检索通常指文本全文检索,它包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索,自20世纪60年代,国外对全文检索技术就开始着手研究。下文主要针对全文检索搜索引擎的基本组成和数据结构进行分析。   搜索引擎的基本组成与工作流程   搜索引擎的基本组成   搜索引擎主的组成可以分为三个部分:由网络蜘蛛(Webspider/Crawler)、索引器(Indexer)和检索器(Seareher),以下分别加以介绍和分析。   1、网络蜘蛛的主要功能是从指定的IP地址或网页相关信息出发收集网页,并沿着任何网页中的所有URL(Uniform Resouree Loeator)爬到其它网页,并且重复这过程,从而把爬过的所有网页收集到页面存储库中。   2、索引器对收集回来存放在存储库中的网页进行分析,提取相关网页信息(包括网页所在URL、页面内容包含的关键词、关键词位置、编码类型、生成时间、大小、与其它网页的链接关系等),然后再根据一定的相关度算法对其进行大量复杂的计算,从而得到每一个网页(针对页面内容)以及超级链接中每一个关键词的相关程度(或重要性),然后用这些相关信息建立网页索引数据库。   3、当用户根据目标关键词开始搜索后,首先搜索请求经过分解,然后由检索器从网页索引数据库中找到符合该关键词的所有相关网页。接着是所有相关网页比对该关键词的相关信息并综合相关信息和网页级别形成相关度数值,最后对搜索结果根据相关度进行排序,相关度越高则排名越靠前并由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。   搜索引擎的工作流程   搜索引擎的工作流程可以概括为以下4个步骤:   1、网上抓取网页;   2、建立索引数据库;   3、在索引数据库中搜索;   4、对搜索结果进行处理和排序。   储存结构   根据搜索的整个流程来看,由于搜索引擎需要对海量文件进行存储,然而操作系统的内存和对大型文件的支持具有局限性,因此,搜索引擎有必要进行自行定义和管理大型文件(Bigfiles)系统。这里的大型文件(Bigfiles)指的是跨多文件系统的虚拟文件,并可支持64位寻址方式。大型文件(Bigfiles)可自动处理多文件系统的分配和寻址,同时可支持文件描述符(fiel descriptor)的分配以及回收,此外,它还支持基本的压缩功能。   索引结构   一旦用户在搜索引擎中键入关键词并提交查询命令后,搜索引擎会瞬间返回搜索结果。然而为了更有效提高搜索效率,检索器先查找索引库,而并不对存储库中的信息进行直接查找。因此,索引库在搜索引擎中占有相当重要的地位,它将直接影响搜索效率、查找精度等。以下,本文将对搜索引擎中用到的索引结构做一分析。   文档索引库   文档索引库(Doeument Index)的作用在于查找、定位每个Web页面文档,它是一种固定长度的ISAM索引,ISAM的全称为Indexed Sequential Aeeess Method,是索引顺序存取模式。它按照文档标识号DocID关键字排序。该索引条目记录了当前文档状态、文档校验、页面存储器中的位置和和其他一些统计数据。   如果一旦文档已经被抓取,则文档索引条目中的Other Statistics包含一个指向名为docinfo的可变长度文件的位置指针,该文件包含了文档的URL和标题信息。然而,如果文档未被抓取,则该指针指向URL列表,其中仅包含了URL信息。数据结构这样的设计的目的是获得合理紧缩的数据存储结构,并且仅通过单次磁盘搜索就可取得所需记录的能力。   此外,还有一个用于将URL转化为文档标识号DocID的对照表文件。它是将相应的文档标识号DocID和URL校验进行一一对应的对照表。为了查找某一个URL对应的文档标识号DocID,首先需要对URL计算校验和,然后应用二分查找法在对照表文件中进行查找,直到找到相对应的文档标识号DocID。它的算法时间复杂度为O(log(表目条数))。然而,如果当需将大量的URL与相应的文档标识号DocID存入对照表中时,为避免在数以十亿计的庞大的链接库中进行多次磁盘搜索操作,则需要采取先将增量部分进行排序,然后采用外部合并有序文件的算法,再将新增部分添加到原对照表中的方法。URL分析器(URL Resolver)正是采用了这一办法。   前向索引表   为了说明索引表中位长结构情况,首先对关键性的DocID字段位长和WordID字段长度情况进行说明。DocID字段长度设计为

文档评论(0)

ouqiaoUU + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档