Internet技术与应用-搜索引擎.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Internet技术与应用-搜索引擎.ppt

INTERNET技术与应用 课程简介 目的: 学会使用Internet进行信息交流和资料查询,为今后工作和学习打下基础。 了解Internet技术的基本原理 学分: 选修课、2学分 学时: 理论30学时,10次课, 上机20小时,分5次,每次4小时。 学习方法:听课?看书?上机上网实践?提问?再听课 主要内容 Internet的定义,历史、现状、功能 Internet技术基础 计算网络基础 TCP/IP协议的基本知识,常用术语 接入Internet的方式 常见的网络应用及其工具软件简介 网络浏览,EMAIL,FTP,P2P等等 搜索引擎的使用 网页的制作,网络服务器的搭建 典型Internet网络系统组建与维护 Internet网络安全基础 1.10 搜索引擎 搜索引擎的定义和分类 搜索引擎的原理 常用搜索引擎 GOOGLE使用指南 常见专业数据库简介 1.10 搜索引擎—网络信息检索工具 已经知道地址时直接访问。 不知道地址的时,需借助检索工具 搜索引擎 网络资源指南(门户) 专门数据库 1.10 搜索引擎 搜索引擎(Search Engine)的定义 是指通过网络搜索软件或网站登陆等方式,将互联网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息 1.10 搜索引擎—简介 分类目录型 是按目录分类的网站链接列表。如Yahoo雅虎、新浪等。 搜索(网页)型 利用关键字进行匹配方法进行网页定位。 1.10 搜索引擎—搜索引擎的原理 搜索引擎的原理 从互联网上抓取网页 建立索引数据库 在索引数据库中搜索排序 1.10 搜索引擎—搜索引擎系统流程 1.10搜索引擎—搜索引擎的原理 信息收集功能(搜索器) 定期搜索,派出spider程序对一定范围内的网站进行检索,发现新的或更新后的网站会自动提取网站信息加入数据库。 网站所有者主动向搜索引擎提交网址,然后搜索引擎在一定时间内派出spider程序搜集有关信息加入数据库。(天网) 1.10 搜索引擎—搜索引擎的原理 检索与排序技术(索引器和检索器) 超链分析技术 索引信息检索 全文检索 用户接口 1.10 搜索引擎—搜索引擎的原理 索引器: 是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。 索引项:分为客观索引项和内容索引项两种 客观项:与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等; 内容索引项是用来反映文档内容的。如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项(单词)和多索引项(或称短语索引项)两种。 1.10 搜索引擎—搜索引擎的原理 检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。 用户接口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯 1.10 搜索引擎—搜索引擎的原理 说 明 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。 搜索引擎也不能真正理解网页上的内容,它只能机械的匹配网页上的文字 1.10 搜索引擎—分类 按照原理 关键词搜索引擎 主题分类指南(directory search engine) 元搜索引擎(meta-search engine) 1.10 搜索引擎—分类 按类型分 WEB搜索引擎 FTP 搜索引擎 学术搜索引擎 blog搜索引擎 新闻搜索引擎 1.10 搜索引擎—元搜索引擎 一次搜索多个搜索引擎,并将结果返回给用户。有的直接按来源引擎排列搜索结果,有的则按自定的规则将结果重新排列组合。 优点:能同时搜索多个搜索引擎,能在一定程度上提高查询的广度。 缺点:有时候并不能对一个搜索引擎全部查完,有时候也会漏掉一些重要信息。 1.10 搜索引擎—搜索引擎发展史 产生:1990年-Archie-蒙特利尔大学的 Alan Emtage开发的ftp搜索系统。 1993年10月 ALIWEB系统:网站自己提交索引信息。(yahoo) 1993年底 基于spider的搜索引擎出现 1994年4月 yahoo:自附简介信息,效率高;WebCrawler:支持全文检索 1.10 搜索引擎—搜索引擎发展史 199

文档评论(0)

cai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档