- 4
- 0
- 约小于1千字
- 约 4页
- 2018-11-16 发布于天津
- 举报
搜索引擎工作流程起源于信息检索理论包括如下3个工作过程搜集Web
The Anatomy of Search Engine 0/yc/TSE/ 搜索引擎工作流程 起源于信息检索理论 包括如下3个工作过程 Architecture Data Structure Big Files Repository Document Index Lexicon Hit Lists Forward index Inverted index * 搜集Web信息 建立索引库 检索查询 www 用户 * * * 1.搜集Web信息:发现、搜集Web上的网页信息。需要有高性能的搜集器自动的在Web中搜索信息。Web信息搜集器是下载Web上网页的程序。它顺着网页之间的链接移动,自动地下载所经过的网页。给定起始URL集合S,Web搜集器不停的从S中移除URL,下载相应的网页,解析出网页中的超链接URL,将未访问过的URL加入集合S。Web搜集器也称作Web机器人或Web蜘蛛。搜集器把所获得的信息保存下来以备建立索引库和用户检索。 2.索引库的建立:对搜集到的Web信息提取和组织,建立索引库。这关系到用户能否迅速地找到准确、广泛的信息。对搜集器抓来的网页信息快速地建立索引,通常采用倒排表技术。如果在建立索引库的过程中对用户在检索端搜索的查询串进行跟踪,并对查询频率高的查询串建立Cache,可以在检索端请求时,加快索引库的响应速度。 3.检索端的查询:根据用户输入的查询字串,在索引库中快速检索出文档。采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,客观地对检索出的网页进行排序,从而尽量保证搜索出的结果与用户的查询串相一致。然后将输出的结果返回给用户。为了加快检索端的响应速度,可以根据最近用户查询信息建立检索端Cache。
您可能关注的文档
最近下载
- LKJ2000型列车运行监控装置用户手册V5.3.DOC VIP
- 如何开一家废品回收站?.docx VIP
- 2026年河南水利与环境职业学院单招职业适应性测试题库含答案详解.docx VIP
- 小学常用单词分类汇总国标手写斜体英语字帖(含例句).pdf VIP
- 古野全圆扫描声纳CSH-5L MARK-2、CSH-5L MARK-2中文说明书.pdf VIP
- pe管穿越施工方案.docx VIP
- 医疗废物专车运输协议.docx
- 技术监督管理标准水利发电厂.doc
- Q/CR 482 高速铁路CRTSII型板式无砟轨道滑动层标准.pdf VIP
- 《原发性肝癌诊疗指南(2026年版)》解读PPT课件.pptx VIP
原创力文档

文档评论(0)