第二章引擎与软件09.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 搜索引擎与软件资源 第一节 搜索引擎 第二节 软件资源 第三节 翻译站点 第四节 工具书网站 第一节 搜索引擎 一、搜索引擎知识 二、搜索引擎介绍 一、搜索引擎知识 1、搜索引擎含义 2、搜索引擎的组成与工作原理 3、搜索引擎的种类 4、著名搜索引擎简介 1、搜索引擎含义 搜索引擎(Search engine)是指通过网络搜索软件或网站登录等方式,对互联网上各种资源进行标引,并为检索者提供检索的工具 搜索引擎是采用信息自动跟踪标引等技术、建立在因特网上专门提供网络信息资源导航服务检索工具。 2、搜索引擎的组成与工作原理 组成: 1、搜索器 2、分析器 3、索引器 4、检索器 5、用户接口 搜索引擎的工作原理 搜索引擎通过搜索器(网络机器人(Network Robot))搜索软件,在因特网上自动跟踪和发掘各种网页信息后,再利用分析器分析标引为扫描到的每一个网页建立顺排文档,索引软件建立倒排文档,从而构造出一个巨大的网络信息库;用户在搜索引擎服务器的WWW站点或网页上的用户接口进行关键词检索或分类浏览得到检索器的搜索结果. 可概括为以下几个过程 (1)信息的采集和存储。全文搜索引擎一般运用“网络机器人”,定期对一定IP地址范围内的互联网站进行搜索,自动收集网页信息并存入数据库。而目录搜索引擎是通过编辑人员对提交的网站进行浏览评判,把被接纳的网站分门别类地存放在相应的目录中。 (2)索引系统的建立。信息采集和存储后,要建立索引查询系统。要对采集到的网页信息进行信息语词切分、语词词法分析、词性标注及相关的自然语言处理,建立检索项索引。 3)检索界面的建立。通过人机交互的理论和方法,搜索引擎检索界面接受检索者提交的查询请求(可对查询内容、逻辑运算、相近关系及出现位置等进行限制),并根据检索者所输入的关键词在其索引数据库中进行检索,显示相应的检索结果,提供用户相关性反馈机制。 (4)检索结果的处理。搜索引擎对检索结果按相关程度进行排列,把最相关的结果排在最前面。每个搜索引擎评判结果相关性的方法均不同,搜索引擎确定相关性的方法有概率方法、位置方法、摘要方法和分类方法。 3、搜索引擎的种类 全文搜索引擎(亦称机器搜索引擎)。使用自动索引软件来发现、收集并标引网页,建立数据库,并以Web形式让用户找到所需信息资源。比较著名的有:AltaVista、Google、天网、百度、悠游等。 目录搜索引擎(亦称分类搜索引擎) 。 这类引擎将信息系统地分门归类,经过人工整理后形成庞大而有序的分类目录体系,用户可以在目录体系的导引下通过逐级浏览,发现、检索到有关的信息。 Yahoo(雅虎)就是以卓越的分类目录型导航服务而称誉全球、搜狐分类目录 混合搜索引擎。 它兼有全文型和目录型两种方式。如:新浪、搜狐、网易、中华 Vivisimo 、 Infospace等门户网站。 多元搜索引擎 :也称为集合型搜索引擎。它是将多个搜索引擎集成在一起,通过统一的检索界面进行网络信息多元搜索的检索工具。这类搜索引擎的代表是WebCrawler / 二、搜索引擎介绍 1、百度() 2、谷歌() 3、Scirus () 1、百度() 百度— 国内唯一商业化的全文搜索引擎,提供搜狐、新浪、263、Tom等站点的网页搜索服务。百度搜索引擎是目前最有影响的中文网络信息检索系统。它的检索词可以是中文、英文、数字,或中英文数字的混合体。百度提供逻辑与、或、非检索,多个关键词之间必须留一个空格,系统默认为逻辑“与”检索,其他同Google的检索方法。 百度的字段限定检索同Google 基本相同之. 2、谷歌() Googel使用方法 1、 运算符使用 2、搜索引擎忽略的字符以及强制检索 3、site网站检索 4、搜索的关键字包含在URL链接中 5、filetype 6、博客搜索 7、图片 8、其他 1、运算符使用 1)逻辑与 AND 空格 加号+ 2) 逻辑或 OR 树杠 | 注意AND、OR必须大写,否则会被认为是普通的单词,而不是搜索指令。 OR优先于AND 3)逻辑非:— 4)完整匹配:“…..” 例:world war I 表示搜索一次世界大战。 5) 通配符:* ? 提示:不要指望Google通过progr?m搜索到program,因为progr和m分别被当作一个独立的单词,并且这两个单词之间允许出现一个字符,如此而已。 2、搜索引擎忽略的字符以及强制检索 (1) 加号 + Google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。 示

文档评论(0)

skvdnd51 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档