基于Java技术的搜索引擎基本组成和数据结构探究.docVIP

  • 7
  • 0
  • 约2.62千字
  • 约 6页
  • 2018-02-03 发布于江苏
  • 举报

基于Java技术的搜索引擎基本组成和数据结构探究.doc

基于Java技术的搜索引擎基本组成和数据结构探究

基于Java技术的搜索引擎基本组成和数据结构探究   随着互联网信息技术的快速发展,搜索引擎在全文检索技术上开始逐步发展起来。全文检索技术是搜索引擎的技术基础。全文检索通常指文本全文检索,它包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索,自20世纪60年代,国外对全文检索技术就开始着手研究。下文主要针对全文检索搜索引擎的基本组成和数据结构进行分析。   搜索引擎的基本组成与工作流程   搜索引擎的基本组成   搜索引擎主的组成可以分为三个部分:由网络蜘蛛(Webspider/Crawler)、索引器(Indexer)和检索器(Seareher),以下分别加以介绍和分析。   1、网络蜘蛛的主要功能是从指定的IP地址或网页相关信息出发收集网页,并沿着任何网页中的所有URL(Uniform Resouree Loeator)爬到其它网页,并且重复这过程,从而把爬过的所有网页收集到页面存储库中。   2、索引器对收集回来存放在存储库中的网页进行分析,提取相关网页信息(包括网页所在URL、页面内容包含的关键词、关键词位置、编码类型、生成时间、大小、与其它网页的链接关系等),然后再根据一定的相关度算法对其进行大量复杂的计算,从而得到每一个网页(针对页面内容)以及超级链接中每一个关键词的相关程度(或重要性),然后用这些相关信息建立网页索引数据库。   3、当用户

文档评论(0)

1亿VIP精品文档

相关文档