网站大量收购独家精品文档,联系QQ:2885784924

中文数据库跟信息检索技术.ppt

  1. 1、本文档共81页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文数据库跟信息检索技术

检索词选取时应注意的几个问题。 ①检索词的选取应适当,具有专指性,涵盖主要主题概念,意义明确。一般应优先选择规范化主题词做检索词,但为了检索的专指性也可选用关键词配合检索。 ②尽可能地考虑其相关的同义词、近义词作为检索词,以保证查全率。如同一概念的几种表达方式,同一名词的单、复数,动名词、过去分词形式,上位概念词与下位概念词,化学物质的名称、元素符号,植物和动物名的英文、拉丁名等。 过程二:选择信息源 明确了信息需求之后,信息源的选择尤为重要,它直接影响着检索的效率。工欲善其事,必先“选”其器,信息源选择得当,就会给人以愉悦的搜索体验,能够收到事半功倍的效果。 一 北京大学政府管理学院硕士招生信息 二 该院导师 三某一导师的姓名、联系方式 四 该导师的发文情况,近3年 第一项可以选择搜索引擎查找 二三项可以进入北大政府学院网站查找 第四项需要使用CNKI等数据库 过程三:选择检索途径和方法 检索途径 信息检索技术 检索式的构造与调整 信息检索途径(检索字段) 责任者途径 题名途径 分类途径 主题途径 序号途径 引文途径 检索式的构造与调整 检索式:是检索策略的逻辑表达式,是用来表达用户检索提问的,由基于检索概念产生的检索词和各种组配算符构成。 (篇名=聚氯乙烯 or PVC) and 年代=2005-2009 过程四:实施检索获取原始文献 问题:北大政府管理学院老师燕继荣的联系方式及近3年发文情况 可分为2个问题: A北大政府管理学院老师燕继荣的联系方式 B北大政府管理学院燕继荣近3年发文情况 A北大政府管理学院老师燕继荣的联系方式 利用搜索引擎找到北大政府管理学院网页 浏览找到燕继荣的联系方式 北大政府管理学院燕继荣近3年发文情况 检索式: 作者=燕继荣 AND 单位=北京大学政府管理学院 AND (时间=2007-2009) 检索结果的评价 查全率:从数据库中检出的相关文献量与数据库中总文献量的比率。 查准率:指数据库中检出的相关文献量与检出的文献总量的比率。 查全率=a/a+c×100% 查准率=a/a+b×1000% 查全率= 检出的相关文献数 系统中的相关文献总数 查准率= 检出的相关文献数 检出的文献总数 例题:如CNKI数据库中共有 “企业管理” 方面的相关文献280篇,而小李同学在 CNKI数据库中只检索出160篇,而且其 检索出的结果中还有28篇是不相关的, 那么小李这次检索的查全率和查准率 各是多少? KEY 查全率 47.1% 查准率 82.5% 超星电子图书数据库中的图书可以下载吗? 答案:是 方正电子图书在线浏览的时间是15分钟吗? 答案:否 是20分钟 三个中文电子图书数据库包括超星、金图和方正吗? 答案:否 超星、方正和书生之家 三个中文电子图书数据库中阅读效果最清晰的是书生之家吗? 答案:是 三个中文电子图书数据库的阅读需要专门的阅读器吗? 是 超星电子图书下载之后可以换机器阅读吗? 是 超星图书安装了阅读器就一定能正常阅读吗? 否 超星电子图书在不打开阅读器的情况下也可以下载 否 W算符 W算符是word或with的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,而且所连接的词之间除了有一个空格或一个标点外不得夹有其他的单词或字母。 information 2W management 可包括 Information technologies and management和 Information management N 算符 N 算符是near的缩写,表示在此算符两侧的检索词必须紧密相连,词序可颠倒。 nN表示两检索词之间最多可以插入n个单词,且词序可颠倒。 information N retrieval information 2N retrieval 3 截词检索 截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词可有后截断、前截断、中截断三种类型。 不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。 (1)后截断,前方一致。如:comput?表示computer,computers,computing等。 (2)前截断,后方一致。如:?computer表示minicomputer,microcomputers等。 (3)中截断, bas?s= basis bases colo?r 包含 colour(英)和color (美) 模糊检索与精确检索 模糊检索(fu

文档评论(0)

rachel + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档