网上技术及信息检索.ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网上技术与信息检索 一.互联网基础知识 二.搜索引擎 一. 互联网基础知识 我国互联网的发展 CNNIC最新统计:(2008/12/31) 2.98亿网民,居世界第一 (半年内用过互联网的6周岁及以上中国公民) 博客用户数达1.62亿 手机上网网民达到1.176亿 互联网的互联原理 TCP/IP协议——通信的保证机制 IP地址——地址的标识技术 客户机/服务器系统——运作的基本模式 地址的标识技术——IP地址 识别主机的身份证,唯一性 域名(DN):即字符型的IP地址,域名的地址格式为: lib. shmu. edu. cn 主机名 机构名 网络类型 最高域名 [注] 需申请注册 常用网络类型代码 com 商业机构 org 非营利组织 edu 教育机构 gov 政府部门 net 网管组织 int 国际组织 mil 军事部门 info 信息机构 其他:.museum .coop .aero .pro…… 可用于限定信息来源出处,鉴别信息可靠性 鉴别信息可靠性时,不能仅以网络类型代码为标准,需进一步根据网站主办机构、性质等来判别。 互联网提供的主要服务 环球网(WWW/Web) 电子邮件(E-Mail) 远程登录(Telnet) 文件传输(FTP) 网格等 环球网(World Wide Web) 统一资源定位器(URL,网址) 是信息在网上的地址,用来定位和检索WWW上的文档。 由三部分组成 web服务器域名、文件路径、文件名 例如:/services/donation.htm 二.搜索引擎 搜索引擎的概念和作用 搜索引擎是一个用来搜索世界各地Internet网络资源的WEB服务器。它像一本书的目录,Internet各个站点的网址就像是页码,可以通过关键词或主题分类的方式来查找感兴趣的信息所在的WEB页面。 搜索引擎提供的导航服务(搜索引擎就是网络的指南针)已经成为互联网上非常重要的网络服务,成为和电子邮件并列的最重要的互联网应用。 搜索引擎的工作原理 (1)信息搜集 (2)信息索引 (3)信息查询 (4)检索结果的相关性处理 搜索引擎的分类 (1)关键词搜索引擎 (2)主题分类搜索引擎 (3)综合搜索引擎 (1)关键词搜索引擎 界面提供输入框,用户通过输入框提交查询请求(关键词),搜索引擎将检索结果反馈给用户。 适用于查找目的明确,并具备一定检索知识的用户。 (2)主题分类搜索引擎 依据某种分类方式(如学科分类),建立主题树状层浏览体系;搜索程序搜索来的信息被标引后放入浏览体系的大类或子类下面,呈现错落有致的上下位关系。 查准率高,但查全率低。 (3)综合搜索引擎 此类搜索引擎既可以搜索网站也可搜索全文,用户输入关键词后,可以选择是搜索网站还是网页,不同的选择返回不同的结果,国内的搜狐(Sohu)就是此类搜索引擎 查全率高,但查准率低。 主要搜索引擎 检索技巧 与:输入多个词,而不需要加AND,谷歌默认多个词之间关系为与,中间要留空格。 或:大写OR 非:之前加上了“-”符号的词都会自动地排除在搜索结果之外。在“-”符号之前要留一个空格符。 bass -fish 同义词:在想要搜索的词之前加上“~”符号,Google就会搜索所有包括这个词以及合适的近义词的页面。 ~elderly 搜索特定的词组 :将整个词组放在一个引号内 。 Google会自动地将这些在你输入的搜索要求中的不重要的、普通的词忽略掉。这些被称作是“忽略的单词”,包括“and”、“the,”、“where”、“how”、“what”、“or”(所有字母皆为小写,还有其它一些类似的词——包括一些单独的数字或单独的字母(例如 “a”)。 搜索技巧 与:多词之间留空格。 或:使用“A | B”来搜索“或者包含关键词A,或者包含关键词B的网页” 。 非:百度支持“-”功能,用于有目的地删除某些无关网页,但减号之前必须留一空格,语法是“A -B”。 在指定网站内搜索 :在一个网址前加“site:”,可以限制只搜索某个具体网站、网站频道、或某域名内的网页。 [电话 site:] 表示在网站内搜索和“电话”相关的资料。 在标题中搜索 :在一个或几个关键词前加“intitle:”,可以限制只搜索网页标题中含有这些关键词的网页。 例如, [intitle:南瓜饼] 表示搜索标题中含有关键词“南瓜饼”的网页。 中国搜索 (原慧聪搜索)是国内领先的搜索引擎公司。自2002年正式进入中文搜索引擎市场以来,中国搜索(原慧聪搜索)取得了一系列令人瞩目的成绩。在一年多的时间里,发展成为全球领先的中文搜索引擎公司,先后为新浪、搜狐、网易、TOM等知名门户网站以及中国搜索联盟上千家各地区、各行业的优秀中

文档评论(0)

wuyoujun92 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档