- 1、本文档共24页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
8 搜索引擎 8.1 网络搜索引擎的诞生与发展 1.搜索引擎诞生的原因: 2.搜索引擎的发展过程: 第一个成功的搜索引擎是Web Crawler,它由华盛顿大学于1994年4月推出。随之而来的是一大批网络搜索引擎如雨后春笋般地涌现:Lycos、Infoseek、 Open Text、Alta Vista、Excite相继诞生为网络信息检索立下汗马功劳。目前,国内外著名的搜索引擎很多:Yahoo, Google, Fast Search, Northern Light和Sohu,百度,天网,指南针等都是众多搜索引擎的代表。 搜索引擎的分类 从搜索层次上分为两类: 常规搜索引擎和元搜索引擎 从信息媒介分: 图像搜索引擎、视频搜索引擎、网页搜索引擎 从信息源的广度: 综合办搜索引擎、专业搜索引擎 网页制作方式和处理方式: WEB目录式、全文数据库式、WEB结构分析型 搜索引擎的发展趋势: 个性化 智能化 整合化 垂直化 移动化 开放式 8.2 搜索引擎的系统结构 建立搜索引擎是将无序的网络信息资源进行有序化组织的有效方法。一个搜索引擎一般由搜索器(Spider), 索引器(Indexer),索引数据库(Index Database ),检索器(Searcher),和用户接口(User Interface)等五个部分组成。 8.2.1 搜索器 是从因特网上采集信息的程序,也称之网络机器人。功能是在网上漫游,不断从网上采集并及时传回相关信息。 搜索器搜集信息的主要采集策略: 网页选取策略: 1、从网址集开始,逐步扩大到整个互联网。 2、从国家、或地区、或域名划分开始展开 3、从网站类别划分,对一类网络穷尽搜索 重复爬取策略:制定搜的时间,不用时时搜。 友好性策略:设定搜的页面范围,不用全面搜。 并行爬取策略:协调不同的搜索程序。 由于互联网上无数的网站页面,搜索引擎蜘蛛无法将所有的页面都下载保存到服务器。因此,许多搜索引擎的网络蜘 蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接广泛度(及外部链接的数量与质量)。 在抓取网页的时候,搜索引擎蜘蛛一般有两种策略:广度优先和深度优先 广度优先是指搜索引擎蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中 的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让搜索引擎蜘蛛并行处理,提高其抓取速度。深度优先是指搜索引擎蜘蛛会从 起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是搜索引擎蜘蛛在设计的时候比较容易。 广度优先和深度优先 由于不可能抓取所有的网页,有些搜索引擎蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1 层,G、H属于第2层,I属于第3层。如果搜索引擎蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索 到,另外一部分不能被搜索到。 对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。 权限: 在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。网站可以通过协议让搜索引擎蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给搜索引擎蜘蛛提供相应的 用户名和密码。搜索引擎蜘蛛可以通过所给的权限对这些网页进行抓取。 搜索器信息处理流程: 将搜索的各类信息的文档格式过滤,变成纯文本文件传回,然后交索引器抽取相应的信息建立索引数据库。 8.2.2 索引器 索引器从搜索器返回的纯文本信息文件中抽取索引项,生成倒排工作文件,进而逐步建立索引数据库。 文档的概念是指数据库内容的组织形式。一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。顺排文档是将数据库的全部记录按照记录号的大小排列而成的文献集合,它构成了数据库的主体内容。在倒排文档中,记录的特征标识作为排列依据,其后列出含有此标识的记录号,使用倒排文档可以大大提高检索的效率。 8.2.3 索引数据库 索引数据库是搜索引擎的核心,它既是索引器提供的产品,又是检索器进行工作的基础。 包括四类文件: 倒排地址表、倒排索引、其他索引、纯文本。 8.2.4 检索器 是针对具体搜索引擎所配置的索引数据库而研制的专用检索工具包。 检索器包括能执行检索策略的程序。即
您可能关注的文档
- 第八章第四节直线与圆、圆与圆的位置关系58.ppt
- 第八章简单电力系统短路电流计算58.ppt
- 第八章管理信息系统的系统实施58.ppt
- 第八章管道材料与附件58.ppt
- 第八章类比推理与溯因推理58.ppt
- 第八章精神分析理论58.ppt
- 第八章系统构架及备份和恢复58.ppt
- 第八章系统生物学58.ppt
- 第八章系统综述和Meta分析58.ppt
- 第八章系统论与历史系统分析方法58.ppt
- 上海海洋大学《海洋环境分析技术》课件-21化学发光分析法.pdf
- 上海海洋大学《海洋环境分析技术》课件-20分子荧光分析法.pdf
- 上海海洋大学《海洋环境分析技术》课件-22色谱分离过程.pdf
- 上海海洋大学《海洋环境分析技术》课件-25气相色谱仪与固定液.pdf
- 上海海洋大学《海洋环境分析技术》课件-24色谱定性定量方法.pdf
- 上海海洋大学《海洋环境分析技术》课件-26气相色谱检测器.pdf
- 上海海洋大学《海洋环境分析技术》课件-29液相色谱固定相与流动相.pdf
- 上海海洋大学《海洋环境分析技术》课件-27气相色谱分离条件的选择.pdf
- 上海海洋大学《海洋环境分析技术》课件-28液相色谱仪器与类型.pdf
- 上海海洋大学《海洋环境分析技术》课件-3 原子光谱和分析光谱.pdf
文档评论(0)