第二章 文信息检索.pptVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 文信息检索

第二章信息检索基础知识; 第一节 检索语言 一、定义:标引人员表达检索标识和检索人员表达情报提问所共同采用共同理解的语言,称为检索语言。 检索语言是一种专门的人工语言,是文献的特征和信息提问相互沟通的依据。 二、检索语言所揭示的概念之间的逻辑关系 (教材P10-11) 1、等同关系 (1)同义关系: (2)准同义关系 2、从属关系 3. 相关关系 (1)交叉关系 (2)矛盾关系 (3)对立关系 (4)并列关系;三、类型 (一)按描述文献的特征分为: 1.外表特征的语言:是文献上表明的、显而易见的特征,如:题名、著者、文献序号等。 2.内部特征语言:描述文献内容方面的语言,如:分类,主题词、关键词标题词、单元词、叙词等。 (二)按组配方式分: 1、先组式语言:是在检索前检索标识已经预先组配好的一种检索语言。如:标题词语言、体系分类语言等。 2、后组式语言:将所有的检索词编成表,不预先组配,检索时要按照组配规则临时进行组配。如:叙词语言。 (三)按结构划分 1、分类语言:是以号码为基本字符,用分类号表达文献主题概念的检索语言。 体系分类语言:按学科体系的层次,从上到下,从总到分,逐级展开,各级类目都一一列举,事先予以固定组配,具有层垒制结构。 组配分类语言:用科技术语进行组配的方式来描述文献内容。 混合分类语言:是组配分类和体系分类的结合。 ;2、主题语言:是一种描述语言,即用自然语言中的名词、名词性词组和句子描述文献所论述或研究的主题。按主题词性质不同可分为:标题词语言、叙词语言、关键词语言、单元词语言等四种。(见教材P13-18) (1)标题词语言:是以标题词作为文献内容标识和检索依据的一种主题语言。所谓标题词,是从文献的题目、正文或摘要中抽选出来,经过规范化处理,用以描述文献内容特征的词和词组。 (2)叙词语言:是以叙词作为文献内容标识和检索依据的一种主题语言。叙词是表达文献基本内容的概念单元。 (3)关键词语言:它是以关键词作为文献内容标识和检索依据的一种主题语言。所谓关键词,是指从文献的题目、正文或摘要中直接抽取出来,未经规范化处理的自由词汇。关键词不受词表控制,标引文献时根据内容选择恰当的词汇进行组配,以表达文献的内容特征。 (4)单元词语言:以单元词作为文献内容标识和检索依据的一种主题语言。所谓单元词,是指从文献的题目、正文或摘要中抽取出来的、最基本的、其概念不可再分的词。它一般未经规范化,也无词表。 3. 代码语言:使用代码系统进行检索的一种语言。 4. 引文语言:以文献著者姓名作为检索标识的一种语言。;四、检索语言的作用(P11) (1)对信息内容进行主题分析,概括出代表信息主要内容的若干主题概念,用检索语言对这些概念进行标引,再存入信息系统。保证不同标引人员表征信息主题概念的一致性。 (2)便于将标引、检索用的标识符进行相符性比较,保证检索和标引的一致性。 (3)保证检索结果和检索要求的一致性。 (4)保证信息存储集中化和系统化,使同一主题概念的信息或与主题相关的信息集中或得到揭示,表述其同一性和相关性。;第二节信息检索的途径、方法;(二)信息检索的步骤(方法)(参见教材P29-32) 1.课题分析:分析课题的主要内容、所涉及到的学科、国内外研究的现状等。 2.选择相关信息资源:数字资源、印刷文献。 3.构造检索式,选择检索入口:检索式由检索词和各种组配算符构成;组配算符(operator)通常由布尔逻辑算符(“AND”、“OR”、’not” )、截词符*(通配符)、位置算符、嵌套算符(优先算符)几种;常用的检索入口如题名、著者、主题词、关键词、引文、文摘、全文、出版年、ISSN号与ISBN号、分类号以及一些其他专业用检索点。检索点正确与否,决定着检索结果的数量与质量 . 4.对检索策略进行调整:对检索数量比较少时,可以进行扩检,提高查全率,比如:增加一些检索词,或补充检索词的上位类词、近义词、调整组配算符,如改“AND”为“OR”、使用截词检索 或放宽取消或放宽一些检索限定等 ;如果检索数量过多则考虑进行缩减,提高查准率。 5.检索结果的评价:对检索效率(查全率、查准率、检索时间、检索成本 )的评价。;(三)信息检索的功能和技术 1.检索功能:指检索系统在检索界面上提供给用户的基本功能,与系统的检索技术是紧密结合的,比较通用的检索功能有:浏览、索引、简单检索、复杂检索、自然语言检索等。 浏览:提供树状结构的知识体系。 索引:按字母顺序线性排列的表单,有人名索引、出版物索引、地名索引、主题索引、机构索引等。 简单检索与复杂检索:页面上通常只有一个检索框,不提供或提供很少的检索入口,不使用或很少使用组配算符,不能构造比较复杂、精细的检索式 。 自然语言检索:用户能

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档