第三讲网络搜索引擎及其方法.pptVIP

  • 8
  • 0
  • 约8.01千字
  • 约 101页
  • 2017-12-23 发布于上海
  • 举报
第三讲网络搜索引擎及其方法

科技文献检索与网络利用 李 渊 2008-02 课程回顾 科技文献检索的基本原理 分类语言主题语言 检索方法、检索技术 BAIDU GOOGLE …. 思考题 1. 利用《中文核心期刊要目总览》(2004年版)查找本专业核心期刊名称,并查找本专业的核心期刊有哪些能在我馆提供阅览的纸质期刊中找到? 2. 查找中图法(四版)简表,找到本专业所在类目,并记下大类号。并查找本专业的图书能在我馆几楼书库找到? 1. 文献检索原理 在文献的存储过程中,对每一篇文献进行分析、著录,赋予特定的标识,并将某种标识按照一定的检索语言集中组织,成为有规律的检索系统。 主题语言与分类语言的比较 检索方法 追溯法 常用法 循环法 检索技术 利用计算机检索系统,检索有关信息而采用的相关技术。 (f)算符Field:要求被连接的检索词出现在同一字段中,字段类型和词序均不限。 (s)算符Sub-field/Sentence:要求被连接的检索词出现在同一句子(同一子字段)中,词序不限 第三讲 网络搜索引擎及其方法 示例1:搜索结果要求包含两个及两个以上关键字 现在,我们需要了解一下搜索引擎的历史,因此期望搜得的网页上有“搜索引擎”和“历史”两个关键字。 问题1: 查看一下搜索结果,发现前列的绝大部分结果还是不符合要求,大部分网页涉及的“历史”,并不是我们所需要的“搜索引擎的历史”。 怎么办呢?删除与搜索引擎不相关的“历史”。我们发现,这部分无用的资讯,总是和“文化”这个词相关的,另外一些常见词是“中国历史”、“世界历史”、“历史书籍”等。 方法1:搜索结果要求不包含某些特定信息 Google用减号“-”表示逻辑“非”操作。“A –B”表示搜索包含A但没有B的网页。 示例:搜索所有包含“搜索引擎”和“历史”但不含“文化”、“中国历史”和“世界历史”的中文网页 搜索:“搜索引擎 历史 -文化 -中国历史 -世界历史” 问题2:忘记了完整的表述方法~~~ 方法2:通配符 很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符等。Google对通配符支持有限。它目前只可以用“*”来替代单个字符,而且包含“*”必须用引起来。比如,“以*治国”,表示搜索第一个为“以”,末两个为“治国”的四字短语,中间的“*”可以为任何字符。 提示:关键字的字母大小写 Google对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。 问题3:多重选择的搜索? 方法3:搜索结果至少包含多个关键字中的任意一个 Google用大写的“OR”表示逻辑“或”操作。搜索“A OR B”,意思就是说,搜索的网页中,要么有A,要么有B,要么同时有A和B。 小结 搜索引擎最基本的语法“与”“非”和“或”,这三种搜索语法Google分别用“ ”(空格)、“-”和“OR”表示。顺着上例的思路,你也可以了解到如何缩小搜索范围,迅速找到目的资讯的一般方法:目标信息一定含有的关键字(用“ ”连起来),目标信息不能含有的关键字(用“-”去掉),目标信息可能含有的关键字(用“OR”连起来)。 1. 对搜索的网站进行限制 “site”表示搜索结果局限于某个具体网站或者网站频道,如“”、“”,或者是某个域名,如“”、“com”等等。 示例:搜索中文教育科研网站()上关于搜索引擎技巧的页面。 搜索:“搜索引擎 技巧 site:” 2. 在某一类文件中查找信息 “filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,Google已经能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。其中最实用的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前Google检索的PDF文档大约有2500万左右,大约占所有索引的二进制文档数量的80%。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。 示例:搜索几个资产负债表的Office文档。 搜索:“资产负债表 filetype:doc OR filetype:xls OR filetype:ppt” 3. 搜索的关键字包含在URL链接中 “inurl”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相

文档评论(0)

1亿VIP精品文档

相关文档