《第七章 Internet 信息资源检索》-公开·课件设计.pptVIP

《第七章 Internet 信息资源检索》-公开·课件设计.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Internet 信息资源检索 搜索引擎知识 概念 搜索引擎(Search Engine)是通过因特网查询网络信息的重要工具。 与我们前面讲述的手工检索工具书一样,搜索引擎实际上是一种网络资源的检索工具,是一种网页网址检索系统。 有的提供分类和关键词检索途径,有的仅提供关键词检索途径。 搜索引擎是将因特网上的网站资源地址或内容收集、整理后,或加以分类,或进行主题标引,形成网络资源数据库,并将之又作为一种新的网络资源提供给人们使用。 搜索引擎的工作原理 搜索引擎的原理可以看做三步: 1.从互联网上抓取网页 每个搜索引擎都派出绰号为“蜘蛛 (spider)”或“机器人 (robots )”的网页搜索软件在各网址中爬行 ,访问网络中公开区域的每一个站点并记录其网址 ,从而创建出一个详尽的网络目录。 2.建立索引数据库 将信息进行分类整理 ,建立搜索引擎数据库。 3.在索引数据库中搜索排序   每个搜索引擎都提供了一个良好的界面。用户只要把想要查找的关键字或短语输入查询栏中 ,并按“Search”按钮 (或其他类似的按钮 )。搜索引擎就会根据用户输入的提问 ,在索引中查找相应的词语 ,并进行必要的逻辑运算 ,最后给出查询的命中结果 (均为超文本链形式 )。用户只需通过搜索引擎提供的链接 ,马上就可以访问到相关信息。 搜索引擎的分类 按检索机制分 全文搜索引擎 目录搜索引擎 元搜索引擎 按搜索的内容分 综合性搜索引擎 专门搜索引擎 1.全文搜索引擎 它提供对关键词、主题词、或自然语言的查询。用户在搜索框中输入检索词或检索表达式,搜索引擎会自动排查相关词,并按相关词的相关程度的高低排序加以链接。用户查到的是与你输入的关键词相关的一个个网页的地址和一小段文字。  国内著名的有百度(Baidu),国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi等。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立 。 优点: 信息量大、更新及时、毋需人工干预 缺点: 返回信息过多,有很多无关信息,需要用户进行筛选。 2.目录索引类: 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。 搜狐: 常青藤: 网易: 3、元搜索引擎 元搜索引擎没有自己的数据,在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。这类搜索引擎的代表是WebCrawler,中文元搜索引擎中具代表性的有搜星搜索引擎,。 / 搜星搜索引擎: 典型全文搜索引擎 国外 Google 国内 百度 雅虎中国 典型全文搜索引擎 1)国外: (1)Google Google是由两位斯坦福大学的博士生 Larry Page 和 Sergey Brin 在 1998 年创立的。可以说是目前世界上最大最全的搜索引擎,以搜索精度高、速度快成为最受欢迎的搜索引擎,在搜索引擎市场上居龙头宝座地位。 目前已经收集了超过30亿的网页,现在,Google 每天需要提供 1.5 亿次查询服务,而且每条搜索所用时间通常不到半秒。 网站排名 Google检索到的网站排名是按照网站的被链接数量由高到低排列,不存在人为的干预因素。因此最先出现的往往都是质量较高的网站。 主要功能 自动使用“AND”进行查询 输入多个关键词,只要加空格就可以,不需要在关键词之间加上“AND”或“+”。 例:超声刀治疗肿瘤,只需在搜索框中输入 主要功能 逻辑或用OR(大写的) 分别输入“鲁迅 or 周树人”和“鲁迅 OR 周树人”,所得到结果数量完全不同,因为前者要求网页中必须同时有“鲁讯”和“周树人”两个关键字,而后者则只要求其中之一就满足条件了,当然出现的结果数量差异就比较突出 逻辑“非”:用“-”表示, “-”号前必须有空格。 类似网页 如果您对某一网站的内容很感兴趣,但又嫌资料不够,Google 会帮您找到其他与此网页网址相关的类似资料的网站。 按链接搜索 有一些词后面加上冒号对 Google 具有特殊的含义。其中的一个词是“link:”。例如,“link:”将找出所有指向西昌学院主页的网页

文档评论(0)

沙卡娜 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档