- 7
- 0
- 约2.62千字
- 约 6页
- 2018-02-03 发布于江苏
- 举报
基于Java技术的搜索引擎基本组成和数据结构探究
基于Java技术的搜索引擎基本组成和数据结构探究
随着互联网信息技术的快速发展,搜索引擎在全文检索技术上开始逐步发展起来。全文检索技术是搜索引擎的技术基础。全文检索通常指文本全文检索,它包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索,自20世纪60年代,国外对全文检索技术就开始着手研究。下文主要针对全文检索搜索引擎的基本组成和数据结构进行分析。
搜索引擎的基本组成与工作流程
搜索引擎的基本组成
搜索引擎主的组成可以分为三个部分:由网络蜘蛛(Webspider/Crawler)、索引器(Indexer)和检索器(Seareher),以下分别加以介绍和分析。
1、网络蜘蛛的主要功能是从指定的IP地址或网页相关信息出发收集网页,并沿着任何网页中的所有URL(Uniform Resouree Loeator)爬到其它网页,并且重复这过程,从而把爬过的所有网页收集到页面存储库中。
2、索引器对收集回来存放在存储库中的网页进行分析,提取相关网页信息(包括网页所在URL、页面内容包含的关键词、关键词位置、编码类型、生成时间、大小、与其它网页的链接关系等),然后再根据一定的相关度算法对其进行大量复杂的计算,从而得到每一个网页(针对页面内容)以及超级链接中每一个关键词的相关程度(或重要性),然后用这些相关信息建立网页索引数据库。
3、当用户
您可能关注的文档
最近下载
- 语文+答案河南郑州市2026年高中毕业年级高三年级第二次质量预测(郑州二模)(4.20-4.22).docx VIP
- 中医康复理疗师真题及答案.docx
- 2025年中医康复理疗师真题及答案.docx
- 英语河南郑州市2026年高中毕业年级高三年级第二次质量预测(郑州二模)(4.20-4.22).docx VIP
- 设备点检润滑考试试题(附答案).docx VIP
- 2026年江西萍乡市八年级地理生物会考真题试卷(含答案).docx VIP
- 2026河南郑州高中毕业年级下学期第二次质量预测物理试题卷.docx VIP
- 河南郑州2026年高中毕业年级第二次质量预测语文试题卷(含解析).docx VIP
- 2019年全国各地小升初英语考试真题(含答案).pdf VIP
- 磺化苯乙烯-马来酸酐共聚物的合成及应用进展.pdf VIP
原创力文档

文档评论(0)