信息检索技术ppt.ppt

  1. 1、本文档共80页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索技术ppt

第一节 计算机信息检索技术的发展 一、计算机信息检索技术的发展历史 1.脱机批处理检索阶段(20世纪50年代中期-60年代中后期)   当时,计算机硬件发展很快,但还没有连接通信网,也没有远程终端装置,不能提供问答服务的检索方式,只能进行现刊文献的定题检索和过期文献的追溯检索,同时利用计算机编辑出版检索性刊物。所谓脱机批处理方式,是指定期由专职检索人员把许多用户课题汇总、批量处理提问要求并把结果提供给用户。但缺乏与用户的交互过程,检索结果获得不及时以及信息需求和检索结果存在一定的误差等 1.分类检索点:分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系。具体表现为分类表、分类目录、分类索引、分类导航、分类专辑等。分类检索点能满足族性检索的需求,查全率较高。 2.主题检索点:主题检索点以课题的主题内容为出发点,按主题词、关键词、叙词、标题词等来查找文献。主题检索点对应文献的主题概念,主要包括题名检索点、关键词检索点、摘要检索点等。以主题作为检索点能满足特性检索的要求,查准率较高,适合查找比较具体的课题。 3.作者检索:是从文献的作者姓名出发来检索其文献。 “作者”广义上还应包括:汇编者、编者、主办者、译者等,此外,还有代表机构、单位的团体作者,包括作者所在单位。 4.名称检索:是从各种事物的名称出发来检索文献信息,包括书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,也包括人名和机构名。书名检索引、会议名索引、书目索引、刊名索引等者提供了从名称进行检索的途径。 5.号码检索:号码检索点以号码特征来检索文献信息。包括文献的编号、代码等,它们是文献信息的一些特有的外部标识,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。如科技报告号、专利号、标准号、ISSN、ISBN、馆藏单位的馆藏号、索取号等。 用NOT、AND缩检,用OR扩检。一般搜索引擎空格代表AND。 例如,计算机AND农业、计算机OR农业、计算机NOT农业检索出来的文献是完全不同的。 “与” “与”是一种用于交叉概念或限定关系的组配,如图所示。可用AND或and或*表示。 中国知网的高级检索 (W)或()算符——with 表示算符两侧的检索词之间只能是空格或标点符号,不得有其他字母或词,且词序不能颠倒。 例1: Smok?(无限截词) 它将对若干词进行检索,包括:smoke,smoky,smoked,smoker,smokes,smokers,smoking,smokeless等等。 例2:Smok??(有限截词) 将对smoke, smoky, smoked, smoker, smokes等 字段符用于代表字段名称。检索字段符(字段代码)是对检索词出现的字段范围(检索点)进行限定,执行时,机器只对指定的字段进行检索,以提高检索效率。 字段限制符通常有两种方式:其一,下拉菜单选择检索字段;;其二,输入检索字段,又分作两类:后缀式和前缀式。 前缀式是将前缀代码放在检索词之前,用=号连接,常见的前缀代码 中国知网的高级检索 1、 查全率与查准率 2.漏检率和误检率 3、查全率(P)和查准率(R)的互逆关系 一次最理想的检索是查准率和查全率均为100%。但实际上这是不可能的。实验表明:查全率和查准率往往呈反比关系。用户应当根据具体信息检索需要,合理调节查全率和查准率,才能保证检索效果。 补充知识:文献信息的使用寿命    文献学家贝尔.保尔登和凯布勒先后提出了文献老化的半生(衰)期。用半衰期的来解释某学科文献信息的老化速度及使用寿命。即某学科现时尚在利用的全部文献中的一半,是在多长时间内发表的。文献的半衰期越短,说明其知识信息的老化速度越快,使用寿命越短。文献的老化速度与学科文献信息量的增长有关。   例如,化学文献的半衰期为8.1年,就是指正在利用的化学信息的50%,其出版年限不超过8.1年。生物医学3.0年。冶金学3.9年、物理学4.6年、化工4.8年、机械制造5.2年、化学8.1年、植物学10年、数学10.5年、地质学11.8年、地理学16年。 9、精确匹配和模糊检索 不同的数据库,检索途径设定的检索规则有所不同,有的检索途径允许用户用“任意一致”的方式检索,有的只允许用“完全一致”或“前方一致”的方式检索。 (1)“完全一致”即精确匹配,要求输入的检索词,与数据库中的文献标识完全匹配,才能命中。 如要查找作者“刘开扬”的文献,则必须准确输入“刘开扬”三字,如输入“刘”或“刘开”,则不能命中。

文档评论(0)

sunshaoying + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档