信息检索与利用第2讲章计算机检索技术.pptVIP

信息检索与利用第2讲章计算机检索技术.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索与利用第2讲章计算机检索技术

信息检索技术基础 主要内容 2.1 信息检索语言 2.2 信息检索技术 2.3 检索效果评价 2.4 检索词的确定 2.5 信息检索策略及策略式 2.6 信息检索步骤 2.7 科技查新 主题语言(内容特征) 按照主题性质的不同可分为: 标题词 单元词 叙词 关键词 标题词语言:是表征文献内容特征的、经过规范化处理的名词术语(包括词和短语)。 例如:飞机:plane、airplane、aeroplane aircraft 用aircraft来表示所有“飞机”概念,以此作为规范词.使用aircraft一词的检索结果将包括全部有飞机概念的文献. 单元词:指从信息内容中抽出的最基本的词汇。 关键词语言:关键词是从文题、文摘或正文中抽出,具有实质意义,能够代表文献内容主题的名词术语。关键词可直接用于文献标引。 叙词语言 叙词:指从信息的内容中抽出的、能概括表达信息内容基本概念的名词或术语,它是经规范化处理的自然语言词汇。 叙词受叙词表控制,有组配功能。 通常使用的叙词表有: 国内《汉语主题词表》, 英国《科学文摘》使用的《INSPEC Thesaurus》, 美国《工程索引》使用的《Ei Thesaurus》等。 EI(Thesaurus) 作用 检索词用来组织信息(信息工作者) 对文献信息内容进行标引; 对内容相同或相关的信息加以集中或揭示其相关性; 对信息进行系统化、有序化; 检索词用于检索(检索用户) 进行主题检索 进行分类检索 进行外表特征检索 检索词是信息资源组织与检索者检索提问的桥梁,在数据库中,对应为检索点、检索入口 2.2 信息检索技术 2.2.1 布尔逻辑 2.2.2 截词检索 2.2.3 限制检索 2.2.4 位置逻辑 2.2.5 检索策略式 逻辑“与” 在计算机信息检索时,“与”用于表示概念的交叉、限定关系 逻辑符号:and、﹡、还可用空格表示 表达形式:A and B、 A * B 、或 A B 具有缩小检索范围和提高专指性的功能。 例: computer and control (SCI) computer*control (Dialog) computer control (Google) 逻辑或 逻辑“或”算符,用来表示概念的并列、平行、等同关系 代表符号:“or”、“+” 表达形式:A OR B 或 A + B 具有扩大检索范围,减少漏检的功能。 例:AIRPLANE OR AIRCRAFT (Google) 或 AIRPLANE+AIRCRAFT 逻辑非 逻辑“非”算符,是具有概念包含关系的一种组配,可以从原检索范围中排除某一内容。? 表达形式:A not B、A-B 具有缩小命中范围,提高查准率,增强检索的专指性,减少输出量的作用。 例:Energy not nuclear 写出下图的布尔逻辑检索式 截词的分类 按位置分类: 前截词 中间截词 后截词 按取代数量分: 有限截词 无限截词 后截词,也称前方一致。它是将截词符放在一串字符的后面,用以表示以相同字符串开头,而结尾不同的所有词。 词尾的有限截断 相同字符串后可能变化一个字符时,则在其后使用一个“?” ,常用来表示检索词的单复数变化。 例如用system? 可以查出sytem 和systems 的文献。 相同字符串后可能变化两个以上字符时,则在其后连续使用若干个“?”代替可能变化的字符。例如,??表示两个字符,???表示三个字符,以此类推 如表示九十年代;199? 如表示20世纪:19?? 词尾的无限截断 相同字符串后可能变化任何字符串时,则在其后使用一个“?”或“*”。这种方法可以查找出含有相同字符串的所有检索词。 例如,comput*可查出compute ,computer , computing ,computation ,computerisation 等 如physic*可检出: physical, physic , physicalism physician, physicists, physicochenistry, physics 等. 即相当于为上述各检索词的逻辑 OR运算 中间截词:可变化的字符出现在单词的中间位置。 例如: “woman ”和“

文档评论(0)

yan698698 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档