第二章 信息检索基础知识详解.pptVIP

  • 144
  • 0
  • 约 86页
  • 2016-03-14 发布于湖北
  • 举报
2、截词检索与词根检索 定义:用截词符号“?”、“*”或“$”加在检索词的前后或中间,以检索一组概念相关或同一词根的词。这种检索方式可以扩大检索范围,提高查全率,主要用于西文数据库检索。中文数据库通常不使用这种技术。 截词检索类型: 截词方式根据截词的位置不同,分为前截断、后截断、中截断; 根据截断的数量不同,分为有限截断和无限截断。 前截断:截词符放在被截词的左边,可与后截断一同使用。目前这种检索技术应用已经极少。 后截断:是前方一致检索,又称右截断,截词符放在被截词的右边,是最常用的截词检索技术。后截断主要用于下列检索:词的单复数检索; 中截断:把截词符放在词的中间。这种方式查找英美不同拼法的概念最有效。 算符 含 义 实 例 * 利用它可以只输入检索词的起始部分,而实现以族词的检索 也可以替代词中的任意字符。 Alter* 可命中Alter、 Alteration、Altercate 、 Alternant、Alternate、Alternator等 sul*ate可命中sulphate 、 sulfate ? 可以替代单个字符 wom?n 可表示 woman 、 women $ 自动取词根运算符 $management 可命中manage、 managed、manager、managers、managing、management 截词举例 符号:*,?,$ 前截断:*magnetic ? magnetic, electro-magnetic, electromagnetic, thermo-magnetic, … 后截断:librar* ? library, libraries, librarian,… 中截断:organi?ation ? organization, organisation 无限截断:不限制被截断的字符数量, 例如输入educat*,可以检索educator,educators,educated,educating,education,educational,等等。 有限截断:限制被截断的字符数量, 例如输入educat??,表示被截断的字符只有两个,可以检索educator,educated两个词。 3 、位置算符检索 定义:运用位置算符表示两个检索词间的位置邻近关系,又叫邻接检索。 这种检索技术通常只出现在西文数据库中,在全文检索中应用较多。 如果说布尔逻辑算符是表示两个概念之间的逻辑关系的话,位置算符表示的是两个概念在信息中的实际物理位置关系 。 常用位置算符 算符 功能 表达式 检索结果 W, with 两词相邻,按输入时顺序排列 (也有数据库允许顺序颠倒) Education(W)school, 或 Education with school Education school Education schools (school of education schools of education) nW 同上,两词中间允许插入n个词 Education (1W) school Education school Education schools Education and music school School of continued education Pre 两词相邻,按输入顺序排列 Education Pre school Education school Education schools 常用位置算符 N, near 两词紧密相邻,中间不能插入其他词,顺序可以颠倒 Education (N) school, 或 Education near school Education school Education schools School of education nN 同上,两词中间可以插入n个词 Education (1N) school Education school School of education Education and music school F 两个词同在一个标引字段中 Education (F) school 例如同时出现在题名或文摘字段中 Same 两个词同在一个段落中 Education Same school 同时出现在一个段落中 4 、限定检索 为了缩小检索范围,可利用字段代码来限制检索词出现的字段,以提高检索速度和命中率。 如:rice in ti(表示只在题目字段中查找文献) rice in de(只在主题词中查找) rice in ab(只在文摘中查找)

文档评论(0)

1亿VIP精品文档

相关文档