科技信息检索原理与技术.ppt

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
科技信息检索原理与技术

3.1.2 截词算符 截词符就是用一个符号来代替单词的一部分或某个字母。截词符一般常用于英文检索。 截词检索的作用是减少检索词的输入而保证相关检索概念的涵盖,同时也方便解决语言文字拼写方面的差异(如美式英语和英式英语),避免漏检。这样可以扩大检索范围,提高查全率,节省检索时间。 截词符用于检索词(干)进行扩展。在不同的检索系统中,截词符有不同的表示方法,通常许多数据库用 * 或者 ? 来表示。 截词方式: 按截断的位置来分共有三种: 后截断、中间截断、前截断 第三节 信息检索技术 三种截断 中文数据库截词一般只能用在词尾,英文数据库则3种方式都可以 (1)后截断 后截断即前方一致检索,是最常用的检索技术。将截词符放在一个词干的后边,以表示其后可有无限或有限个字符。 A.后截断无限截词 不说明具体截去字符的数量。截词符是在一个词尾加一个 ? 号,表示在其后可添加任意多个字符,这些字符都被作为检索词进行检索。无限截词通常用 ? 或 * 来表示 把截词符放在字根的最后。如:behav? 系统将找出 “behave, behaviour,behavioural”等 B.后截断有限截词 说明具体截去字符的数量,截词符是在一个词尾加有限个 ?号,n个 ?号表示其后可添加的字符数少于等于n个。 如:smok?? ;系统 将对smoke , smoky , smoked , smoker , smokes等进行检索 (2)中间截断 中间截断是把截词符号放在一个检索词的中间。一般中间截断只允许有限截断。中间截词符也称通配符,是在一词中间用若干个?号,表示可插入若干个字符。 中间截断主要用于英式和美式单词的不同拼写方式,以及有些词出现单复数不同。 如:organi?ation;系统将对 organisation 和 organization 进行检索。 如: wom?n ; 系统将找出 woman , women“; (3)前截断 前截断就是把截词符放在字根的左边。如:*Computer, 系统在检索时将找出Microcomputer,mini-computer 等 3.1.3 位置算符 位置算符:表示其连接的两个检索词之间的位置关系(A B) 不同位置算符的比较: 两个词(A B)由不同的位置算符连接组成不同的检索式,其检索结果显然不同。 (N)与(nN) 第三节 信息检索技术 常用位置算符 位置算符 常用位置算符的使用简介 (1) (W)与(nW) 算符 (W): 是with的缩写。(W) 表示其连接的两个检索词必须按序出现,中间不允许插词,只能有一空格或标点、符号。如:high(W)class 命中的记录中出现的匹配词可能有:high class 或high-class。 (nW): 与(W)类似, 只是它允许插词,插词量小于或等于n个。 如:silicon(2W)sensor;命中的记录中出现的匹配词除上例的外,还可能会有:silicon angular rate sensor , silicon-based chemical sensor等等 (2) (N)与(nN) 算符 (N):N是near的缩写。(N)表示其连接的两个检索词的词序可变,但两词间不允许插词 (nN): (nN)中的n表示允许插词量少于或等于n个。 如:internet(1N)accessing 命中记录中除上例的外,还会可能有: accessing the internet , internet /intranet accessing等 第三节 信息检索技术 3.2 检索功能 检索功能是指检索系统在检索界面上提供给用户的基本功能。 它与系统的检索技术是紧密结合的。 比较通用的检索功能有:浏览、索引、词表、简单检索、高级检索、专家检索、二次检索等。 上述检索功能都是技术上较为成熟,在检索系统中得到广泛应用的。 第三节 信息检索技术 3.2.1 浏览检索:可选择期刊、图书、丛书、电子参考书及图片等进行浏览检索 利用检索系统提供的树型结构, 从“树根”开始,逐层逐级打开 ,直到找到所需文献 第三节 信息检索技术 3.2.2索引检索(Index) 第三节 信息检索技术 索引检索(Index) 一些数据库常将其文献记录的一个或几个字段中具有实际检索意义的词,按字顺排成一个表单式的索引,供用户选择检索。索引的种类很多;如人名索引、出版物索引、地名索引、主题索引、机构索引等。 如图所示的作者索引(取自EI数据库) 用途:在不清楚作者名称是全称还是缩写的情况下使用作者索引可节省检索时间和保障查全率或查准率。 第三节 信息检索技术

文档评论(0)

laolao123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档