006-信息检索教程__第六章课件.pptVIP

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信 息 检 索 教 程 王立清 主编 第6章 计算机检索概述 第6章 计算机检索概述 6.1.1 计算机信息检索的含义 计算机信息检索指人们根据特定的信息需求,按照一定的方法,利用计算机从相关的信息检索系统中识别并获取所需的信息。计算机信息检索的过程包括信息存储过程和信息检索过程,其本质是信息用户的提问标识和信息集合数据库特征标识匹配的过程。 第6章 计算机检索概述 第6章 计算机检索概述 6.1.2 计算机信息检索发展简史 计算机信息检索的发展经历了四个阶段: 第6章 计算机检索概述 6.1.3 计算机信息检索的分类 计算机信息检索包括许多类型,依据不同的划分标准,可以分为不同的类型: 1. 根据所检索数据库的形式分 第6章 计算机检索概述 2. 根据计算机检索服务方式分 第6章 计算机检索概述 6.1.4 计算机信息检索的特点 1. 检索范围大。 2. 检索速度快。 3. 检索功能强,组配灵活。 4. 检索途径多。 5. 数据更新及时,时效性强。 6. 检索结果输出形式多样。 第6章 计算机检索概述 6.2.1 检索策略的含义和作用 所谓检索策略,即在分析检索课题内容实质基础上,选择检索系统、检索途径、确定检索词及其相互间的逻辑关系等的信息检索方案。信息检索策略的实质是对检索过程的科学规划。其中关键在于构造能够确切表达信息需求的检索式。 第6章 计算机检索概述 6.2.2 检索表达式 检索表达式是检索策略的具体体现,简称检索式。检索式一般由检索词和各种逻辑运算符组成,具体来说,它将检索词之间的逻辑关系、位置关系等用检索系统规定的各种算符连接起来,成为计算机可以识别和执行的命令形式。检索式构造的优劣关系到检索策略的成败。 检索表达式主要有逻辑表达式、加权表达式和其他表达式。其中,最为常用的是逻辑表达式。 第6章 计算机检索概述 6.2.2.1 逻辑表达式 逻辑表达式是指利用布尔算符,对检索词的关系进行表达,又称布尔逻辑表达式。 有逻辑与“AND”、逻辑或“OR”、逻辑非“NOT”。 第6章 计算机检索概述 逻辑表达式的构造中,根据不同的信息需求、不同的检索策略,其检索式构造也不一致。一般来说,对于以查全为目标的检索课题,在检索式的构造过程中,用“与”连接的概念组面不能太多,应增加用“或”连接的相关检索词。对于以查准为目标的检索课题,其检索式的构造一般可采用增加逻辑与的使用。 第6章 计算机检索概述 6.2.2.2 加权表达式 所谓加权检索,是指在检索提问中,根据每个检索词在检索要求中的重要程度,分别给予一定的数值加以区别,即赋权,这个数值称权值,然后对含有这些检索词的文献进行加权计算,其和在规定的阈值以上的,即确认为命中文献。采用这种方法表达信息需求的称为加权表达式。 加权检索可明确各检索词在检索中的重要程度,检索结果按照切题顺序排列,在提高查全率和查准率方面均有一定的作用。但就具体应用来说,加权检索的使用远不及布尔逻辑表达式广泛。 第6章 计算机检索概述 例如,用加权表达式来表示查找“中国高等教育的发展趋势”的信息需求,可以写为: 中国(5) 高等教育(5) 发展趋势(5) 阈值W=15 括号内的数字5即是权值。 具体检索时,对同一条记录内包含并且匹配这三个检索词的权值相加,超过阈值15时,就作为命中文献输出。逻辑上还是“与”的关系。 如“论中国高等教育的发展趋势”这篇文献,各检索词权值相加是15(中国5,高等教育5,发展趋势5),就是命中文献之一。而“中国高等教育的现状”,检索词权值相加为10(中国5,高等教育5),小于阈值15,即为非命中文献。 第6章 计算机检索概述 6.2.2.3 位置检索表达式 位置检索表达式,也称邻近检索。通过位置算符来表示两个检索词(或短语)之间的距离和位置关系。不同的检索系统可能会采用不同的位置算符,目前应用广泛的主要是: 第6章 计算机检索概述 6.2.2.4 截词检索表达式 截词检索表达式指在检索式中用专门截词符号表示检索词的某一部分允许有一定的词汇变化 。 截词检索表达式在西方语言检索中应用比较广泛,在中文信息检索中也有一定的应用。 不同检索系统采用的截词符不完全相同,一般常采用“?”、“*”等。 第6章 计算机检索概述 后截词,又称右截词、前方一致,允许检索词尾部有若干变化形式。例如,检索式comput ?将检出包含computer、computing、computerized、computerization等词汇的结果。 中间截词,允许检索词中间有若干变化形式,例如wom*n就可同

文档评论(0)

mwk365 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档