- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第8章 网络资源的搜索
8.1.1 搜索引擎概述 1.搜索引擎的概念 搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的网站网页及其他信息,并对收集到的信息进行相关组织和处理,建立相应的数据库和索引文档,为用户提供搜索服务的系统。 2.搜索引擎的组成 搜索引擎一般由搜索器、索引器、检索器和用户接口4个部分组成。 1)搜索器。其功能是在互联网中漫游,发现和搜集网络信息。 2)索引器。其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。 3)检索器。其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息。 4)用户接口。其作用是接纳用户查询、显示查询结果和提供个性化查询项。 3.搜索引擎的工作原理 其工作原理具体可概括为以下几个过程: 1)网页信息的采集。每个独立的搜索引擎都有自己的网页抓取程序(Spider)。Spider定期对一定IP地址范围内的网站顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 2)索引系统的建立。搜索引擎抓到网页后,对采集到的网页信息进行信息语词切分、词法分析、词性标注、去除重复网页、分析超链接以及计算网页的重要度等相关的自然语言处理,建立索引文件系统。 3)提供检索服务。通过人机交互的理论和方法,搜索引擎检索界面接受检索者提交的查询请求(可对查询内容、逻辑运算、相近关系及出现位置等进行限制),在索引数据库中进行检索,找到匹配该查询请求的网页信息,显示相应的检索结果。为了用户便于判断,除了提供网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。 4.搜索引擎的分类 1)全文搜索引擎。是名副其实的搜索引擎,国外代表性的有Google,国内则有著名的百度。它们从互联网提取多个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。 根据搜索结果来源的不同,全文搜索引擎可分为两类: 一类拥有自己的搜索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类。 另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。 2)目录索引。目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户按照分类目录可找到所需要的信息。 目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索,但目前网民使用越来越少了。 3)元搜索引擎。元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile和Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。 4)其他非主流搜索引擎形式有如下几个: ① 集合式搜索引擎。该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot搜索引擎。 ② 门户搜索引擎。AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录,也没有网页数据库,其搜索结果完全来自其他搜索引擎。 ③ 免费链接列表(Free For All Links,简称FFA)。一般只简单地滚动链接条目,小部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。 5.全文搜索引擎常用语法规则 目前在互联网的搜索引擎数量非常多,各个搜索引擎都有自己的特点,所使用的检索语法也没有统一的规定,以下列举一些检索时常用的语法规则: (1)逻辑检索 搜索引擎基本上都支持“与”、“或”、“非”布尔逻辑运算,但是不同的搜索引擎使用的运算符号不完全相同,常见的有AND、OR、NOT以及“+”、“-”、“”、“,”和“︱”等逻辑符号。 绝大多数的英文搜索引擎使用AND、OR、NOT这三个逻辑符号。而中文搜索引擎一般用空格表示逻辑与,用“,”或“︱”表示逻辑或,用“-”表示逻辑非,用“+”表示某个词汇必须出现在搜索结果中,用双引号 表示精确查找,用括号调整优先级。 (2)截词检索 国外的大多数搜索引擎用“*”、“?”作为截词符(或称通配符),可进行词干一致或前方一致或后方一致检索词的检索,一般用“*”指代单词的某个字符串,如“com*”
文档评论(0)