10第三章信息检索的方法与技术第二讲.ppt

10第三章信息检索的方法与技术第二讲.ppt

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
10第三章信息检索的方法与技术第二讲

3.2.2 截词检索(truncation) 截词:检索者将检索词在他认为合适的地方截断。 截词检索:用截断词的一个局部进行的检索,凡满足这个词局部中的所有字符串的文献,都为命中文献。 3.2.2 截词检索(truncation) 截词的方式 按截词的位置分:后截词、前截词、中截词 按截词的数量分:无限截词、有限截词。 截词符号:不同的系统符号不同 如 “ *” “?” “$” 截词检索 非限定性截词(无限截词) 截词符(truncation operator),是在一个词尾加一个?号,表示在其后可添加任意多个字符,这些字符都被作为检索词进行检索。 如:smok? 它将对若干词进行检索,包括:smoke, smoky, smoked, smoker, smokes, smokers, smoking, smokeless等等。 限定性截词(有限截词) 限定性截词(limited truncation), 是在一个词尾加有限个 ?号,n个 ?号表示其后可添加的字符数少于等于n 如:smok?? 将对smoke, smoky, smoked, smoker, smokes等进行检索。 对于最多允许添加一个字符的情况, 则用 ? ? 的形式表示。 如;smok? ?  将只对 smoke, smoky进行检索。 截词检索举例 后截词: 将截词符号置于一个字符串的右方。 如comput? 可检索出: compute, computed, computer, computing, computers, computable, computation,computerize, computerization等 后截词又叫前方一致。 截词检索举例 归纳起来,后截词主要主要使用在以下几个方面: 1.词的单复数:如 book?,potato?? 2.年代:如198?(80年代),19??(20世纪) 3.作者:如lancaster?,可检索出所有姓lancaster的作者 4.同根词:如biolog?可检索出biological,biologist,biology. 注:使用后截词,有可能检索出无关的词汇。 词干不能太短,会造成大量误检,系统软件不支持或发生溢出。 截词检索举例 前(左)截断:将截词符号置于一个字符串的左方。 如 ?Computer可检索出:macrocomputer,minicomputer, microcomputer,computer等相关词。 中间截断:如analy?er表示analyzer和analyser, wom?n表示woman和women 前后截断:如?computer? 上述4种截断中,后截断最常用。 3.2.3 字段检索 限定检索词在数据库记录中出现的字段范围的一种检索方法 。 Dialog系统中字段检索分为两类:后缀方式和前缀方式。 后缀方式:对应于基本索引,反映文献的主题内容。如/TI,/AB,/DE,/ID,等。 前缀方式:对应于辅助索引,反映文献的外部特征。如AU=(著者),BN=(ISBN),CC=(分类号),CS=(机构名称),LA=(语种),PY=(出版年),等。 例如:(minicomputer/DE,TI+personal computer/Ti,AB)*py=1990*LA=Eng 数据库常用检索字段列表 3.2.4 词位置检索 词位置检索又叫相邻检索,是以原始记录中检索词之间特定的位置关系为逻辑运算的对象,检索词之间用位置算符连接。它是一种不依赖词表而直接使用自由词的检索技术,可以使检索结果更加准确。 一般分为4个级别: 记录级检索(C):要求检索词出现在同一记录中。 字段级检索(F):要求检索词出现在同一字段中。 自然句级检索(S):要求检索词出现在同一句子中。 词位置检索(W):要求检索词之间的相互位置满足某些条件。 如: A(W)B A(nW)B A(nN) HDTV OR High()Difinition()Television 词位置检索算符 (W)算符与(nW)算符 (W)算符是“word”或”with”缩写,它表示在此算符两侧的检索词必须按输入时的前后顺序排列。而且所连接的词之间除有一个空格、或一个标点符号或一个连接号外不得夹有任何其他固定的词组, (W)算符的严密性较强。 (nW)算符:允许在连接的两个词之间最多插入n 个及其n个以内的其他词。 词位置检索算符 例如:?s

您可能关注的文档

文档评论(0)

shaoye348 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档