第二章信息检索基础知识.ppt

  1. 1、本文档共111页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第一节 信息检索及其类型 一、信息检索的含义 二、信息检索的类型 第二节 检索语言 一、检索的基本原理 二、检索语言的定义 三、检索语言的类型 一、信息检索的基本原理 二、检索语言 1.定义: 是从自然语言中精选出来的一整套词汇、符号,用来对文献内容和信息特征进行概括和规范的一种人工语言。它是文献信息工作者用来描述文献特征,检索者用来表达检索提问的语言,是沟通存储过程和检索过程的桥梁,是信息检索全过程得以顺利实现的语言保证。 2.检索语言所具备的功能 (1) 对文献的信息内容及其外表特征加以规范化的标引; (2) 对内容相同及相关的文献信息加以集中或揭示其相关性; (3) 可使文献信息的存贮集中化、系统化、组织化,便于检索者按一定的排列次序进行有序化检索; (4) 便于将标引用语和检索用语进行相符性比较。 3.1分类检索语言 分类检索语言:是用分类号和相应的分类款目名称来表达信息内容的主题概念,并按学科体系的逻辑次序将信息资源系统地加以划分和组织的语言.分类语言能反映事物的从属派生关系,便于按学科门类进行族检索。 3.2主题检索语言 主题检索语言:是采用描述文献主题的语词排列主题标识,提供各种检索词语的途径。 一般由主题词表及其编制和使用规则组成。 主题检索语言的基本类型 1)标题法(System of subject heading) 2)单元词法(Uniterm indexing) 3)叙词法(Descriptor indexing) 4)关键词法(Keyword indexing) 1.逻辑与(AND)* 缩检 假设A和B是两个检索词,则A*B表示A与B必须同时存在。运用“逻辑与”表达式,有助于明确限定检索范围。 逻辑与(AND)* 缩检 例如用户想在题名中检索有关新闻美学的文献,如只输入“新闻”或“美学”,则命中文献太多,且有许多不是自己所要的。如果输入“新闻*美学”,则检索出题名中同时含有“新闻”和“美学”的文献,检索结果大大缩小。 1.逻辑与(AND)* 缩检 换一个角度看,“逻辑与”又能防止漏检。 例如,用户输入“新闻美学”作为检索词,可命中《戈公振的新闻美学实践》这样的文献,但漏检了《新闻的美学属性》、《新闻标题中的美学》这些文献。如果用“新闻*美学”来进行检索,则上述三篇文献都检中。 2.逻辑或(OR)+ 扩检 A+B,表示A或B中任何一个词存在都可以(当然A和B同时存在也可以)。“逻辑或”表达式,有助于提高查全率 2.逻辑或(OR)+ 扩检 例如某用户想查找研究杜甫的文献,检索途径选择题名后,输入“杜甫”,命中540篇。但考虑到研究杜甫的文献题名中未必都出现“杜甫”两字,也可能会出现“杜诗”、“李杜”,于是改用“杜甫+杜诗+李杜”表达式,结果命中608篇。 3.逻辑非(NOT)- 缩检 A-B,表示A必须存在,但不能有B。“逻辑非”表达式,主要用于排除那些与检索意图无关的文献。 例如:“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。 4.逻辑检索的优先级别 当布尔运算符在一个检索式中连续出现时,它们的“级别”是不同的。大部分数据库是这样规定的:-优先级最高,*次之,+最低。 例如要查找研究唐宋诗歌的文献,可以用“(唐+宋)*诗”、“唐*诗+宋*诗”,而不能用“唐+宋*诗”。“唐+宋*诗”查找的是含有“唐”的文献或者同时含有“宋”和“诗”的文献,这样就把涉及到的唐代、唐姓的文献都找出来了。 二、截词检索 截词检索是预防漏检提高查全率的一种常用检索技术,大多数系统都提供截词检索的功能。 截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,这样既可节省输入的字符数目,又可达到较高的查全率。 截词符一般用“?”、“ *”、“#”表示 二、截词检索 3.中截词   中截词也称屏蔽词。一般来说,中截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。如organi?ation可检索出含有organisation和organization的记录。由此可知,中截词使用的符号为"?",即用"?"代替那个不同拼写的字符。 (二)按所截断的字符数目来分,分为 第四节 信息检索策略 一、什么是检索策略 二、常见的检索策略类型 三、检索策略的制定 四、检索效果的评价 五、信息检索的实施 信息检索的核心 是用户信息需求与文献信息集合的比较和选择, 是两者匹配(match)的过程。[通过检索语言匹配] 检索与查找、搜索有什么区别? 一、什么是检索策略 所谓检索策略广义上是指为实现检索目的而制订的全盘计划和方案;狭义讲是指检索式。

文档评论(0)

一天一点 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档