信息检索技术基础知识讲义.pptx

  1. 1、本文档共97页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索技术基础;主要内容;检索语言:在信息的存储和检索过程中,为使信息在用户和系统间有效传递,各种检索工具使用专门的语言体系来描述信息的内部特征和外部特征,同时要求用户依此构造检索提问式来进行信息检索,这种专门的语言体系成为检索语言。;;主题语言(内容特征) 按照主题性质的不同可分为: 标题词 单元词 叙词 关键词;标题词语言:是表征文献内容特征的、经过规范化处理的名词术语(包括词和短语)。 例如:飞机:plane、airplane、aeroplane aircraft 用aircraft来表示所有“飞机”概念,以此作为规范词.使用aircraft一词的检索结果将包括全部有飞机概念的文献. 单元词:指从信息内容中抽出的最基本的词汇。 关键词语言:关键词是从文题、文摘或正文中抽出,具有实质意义,能够代表文献内容主题的名词术语。关键词可直接用于文献标引。;叙词语言 ;EI(Thesaurus);作用 检索词用来组织信息(信息工作者) 对文献信息内容进行标引; 对内容相同或相关的信息加以集中或揭示其相关性; 对信息进行系统化、有序化; 检索词用于检索(检索用户) 进行主题检索 进行分类检索 进行外表特征检索 检索词是信息资源组织与检索者检索提问的桥梁,在数据库中,对应为检索点、检索入口;对文献信息内容进行标引;字段名;2.2.1 布尔逻辑 2.2.2 截词检索 2.2.3 限制检索 2.2.4 位置逻辑 2.2.5 检索策略式 ;在进行信息检索时,检索项之间概念有相交关系、同义关系或相关关系,这时采用布尔逻辑进行检索项之间的逻辑组配。 用“与”(AND)、“或”(OR)、“非”(NOT)来表达。 ;布尔逻辑检索:在进行信息检索时,检索项之间概念有相交关系、同义关系或相关关系,这时采用布尔逻辑进行检索项之间的逻辑组配。 布尔逻辑算符有三种: 逻辑与、逻辑或、逻辑非 用“与”(AND)、“或”(OR)、“非”(NOT)来表达。 ;逻辑“与”;逻辑或;逻辑“非”算符,是具有概念包含关系的一种组配,可以从原检索范围中排除某一内容。? 表达形式:A not B、A-B 具有缩小命中范围,提高查准率,增强检索的专指性,减少输出量的作用。 例:Energy not nuclear ;布尔逻辑检索技术;运用“布尔算符”的注意事项: 布尔逻辑运算符运算顺序为: not→and→or 运算符遵循数学运算法则; (a) 括号优先;(A or B) and C not D (b) 在检索式中只有and或or前后的检索标识可 以交换; (c) 检索式中有not时前后检索词不能交换。 备注: ( )必须在半角和英文状态下输入 ;布尔逻辑检索表达式的特点; 写出下图的布尔逻辑检索式;截词(truncation):是指检索者将检索词在认为比较合适的地方截断,也称模糊检索,又称词干检索法 截词检索,用截断的词的一个局部进行的检索即利用检索词的词干加上截词符号去数据库中进行检索。(模糊检索) 截词符号:一般为“?”或 “*” 。各种检索系统有不同规定,没有统一标准。 截词符具有“OR ”运算符的功能,能够扩大检索范围,而且减少了输入检索词的时间,节约了机时。;截词的分类;后截词,也称前方一致。它是将截词符放在一串字符的后面,用以表示以相同字符串开头,而结尾不同的所有词。 词尾的有限截断 相同字符串后可能变化一个字符时,则在其后使用一个“?” ,常用来表示检索词的单复数变化。 例如用system? 可以查出sytem 和systems 的文献。 相同字符串后可能变化两个以上字符时,则在其后连续使用若干个“?”代替可能变化的字符。例如,??表示两个字符,???表示三个字符,以此类推 如表示九十年代;199? 如表示20世纪:19??;词尾的无限截断 相同字符串后可能变化任何字符串时,则在其后使用一个“?”或“*”。这种方法可以查找出含有相同字符串的所有检索词。 例如,comput*可查出compute ,computer , computing ,computation ,computerisation 等 如physic*可检出: physical, physic , physicalism physician, physicists, physicochenistry, physics 等. 即相当于为上述各检索词的逻辑 OR运算;中间截词:可变化的字符出现在单词的中间位置。 例如: “woman ”和“women ”,可用“wom?n”代替; “defence ”和“d

文档评论(0)

职教魏老师 + 关注
官方认证
服务提供商

专注于研究生产单招、专升本试卷,可定制

版权声明书
用户编号:8005017062000015
认证主体莲池区远卓互联网技术工作室
IP属地河北
统一社会信用代码/组织机构代码
92130606MA0G1JGM00

1亿VIP精品文档

相关文档