第八章索引数据库与搜索引擎58.pptVIP

下载本文档

1
0
约1.63万字
约 24页
2017-07-16 发布于北京
举报
版权申诉

第八章索引数据库与搜索引擎58.ppt

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

8 搜索引擎 8.1 网络搜索引擎的诞生与发展 1.搜索引擎诞生的原因： 2.搜索引擎的发展过程: 第一个成功的搜索引擎是Web Crawler，它由华盛顿大学于1994年4月推出。随之而来的是一大批网络搜索引擎如雨后春笋般地涌现：Lycos、Infoseek、 Open Text、Alta Vista、Excite相继诞生为网络信息检索立下汗马功劳。目前，国内外著名的搜索引擎很多：Yahoo, Google, Fast Search, Northern Light和Sohu，百度，天网，指南针等都是众多搜索引擎的代表。搜索引擎的分类从搜索层次上分为两类：常规搜索引擎和元搜索引擎从信息媒介分：图像搜索引擎、视频搜索引擎、网页搜索引擎从信息源的广度：综合办搜索引擎、专业搜索引擎网页制作方式和处理方式： WEB目录式、全文数据库式、WEB结构分析型搜索引擎的发展趋势：个性化智能化整合化垂直化移动化开放式 8.2 搜索引擎的系统结构建立搜索引擎是将无序的网络信息资源进行有序化组织的有效方法。一个搜索引擎一般由搜索器（Spider）, 索引器（Indexer），索引数据库（Index Database ）,检索器（Searcher），和用户接口（User Interface）等五个部分组成。 8.2.1 搜索器是从因特网上采集信息的程序，也称之网络机器人。功能是在网上漫游，不断从网上采集并及时传回相关信息。搜索器搜集信息的主要采集策略：网页选取策略： 1、从网址集开始，逐步扩大到整个互联网。 2、从国家、或地区、或域名划分开始展开 3、从网站类别划分，对一类网络穷尽搜索重复爬取策略：制定搜的时间，不用时时搜。友好性策略：设定搜的页面范围，不用全面搜。并行爬取策略：协调不同的搜索程序。由于互联网上无数的网站页面，搜索引擎蜘蛛无法将所有的页面都下载保存到服务器。因此，许多搜索引擎的网络蜘蛛只是抓取那些重要的网页，而在抓取的时候评价重要性主要的依据是某个网页的链接广泛度（及外部链接的数量与质量）。在抓取网页的时候，搜索引擎蜘蛛一般有两种策略：广度优先和深度优先广度优先是指搜索引擎蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让搜索引擎蜘蛛并行处理，提高其抓取速度。深度优先是指搜索引擎蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是搜索引擎蜘蛛在设计的时候比较容易。广度优先和深度优先由于不可能抓取所有的网页，有些搜索引擎蜘蛛对一些不太重要的网站，设置了访问的层数。例如，在上图中，A为起始网页，属于0层，B、C、D、E、F属于第1 层，G、H属于第2层，I属于第3层。如果搜索引擎蜘蛛设置的访问层数为2的话，网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到，另外一部分不能被搜索到。对于网站设计者来说，扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。权限：在访问网站网页的时候，经常会遇到加密数据和网页权限的问题，有些网页是需要会员权限才能访问。网站可以通过协议让搜索引擎蜘蛛不去抓取，但对于一些出售报告的网站，他们希望搜索引擎能搜索到他们的报告，但又不能完全免费的让搜索者查看，这样就需要给搜索引擎蜘蛛提供相应的用户名和密码。搜索引擎蜘蛛可以通过所给的权限对这些网页进行抓取。搜索器信息处理流程：将搜索的各类信息的文档格式过滤，变成纯文本文件传回，然后交索引器抽取相应的信息建立索引数据库。 8.2.2 索引器索引器从搜索器返回的纯文本信息文件中抽取索引项，生成倒排工作文件，进而逐步建立索引数据库。文档的概念是指数据库内容的组织形式。一般地说，一个数据库至少包括一个顺排文档和一个倒排文档。顺排文档是将数据库的全部记录按照记录号的大小排列而成的文献集合，它构成了数据库的主体内容。在倒排文档中，记录的特征标识作为排列依据，其后列出含有此标识的记录号，使用倒排文档可以大大提高检索的效率。 8.2.3 索引数据库索引数据库是搜索引擎的核心，它既是索引器提供的产品，又是检索器进行工作的基础。包括四类文件：倒排地址表、倒排索引、其他索引、纯文本。 8.2.4 检索器是针对具体搜索引擎所配置的索引数据库而研制的专用检索工具包。检索器包括能执行检索策略的程序。即