文本检索研究.ppt

  1. 1、本文档共96页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本检索研究

4 文本检索研究 第四讲 文本信息检索研究     (Text Processing) 陆铭 richard.lu@shu.edu.cn mingler.ccshu.org Outline 经典文本检索方法 (1)——菊池敏典算法 (2)——福岛算法 (3)——加权检索 文本预处理——分词、词干 索引和排序 全文检索方法 国内文本和全文检索研究 1.1 菊池敏典算法——信息检索系统的构成 信息采集子系统 广泛地、定期地采集各种信息源 标引子系统 人工或者自动标引 建库子系统 数据录入、错误检查与处理、数据格式转换、生成各种文档。仅提供定题(SDI)服务,则建立能支持顺序检索的顺排文档。若需支持回溯检索,则建立各种倒排档 词表管理子系统 管理维护系统中已有的词表,使它与标引、建库等子系统相连接,支持用户查询操作 用户接口子系统 由用户模型、信息显示、命令语言和反馈机制 提问处理子系统 ①接收提问 ②提问校验 ③提问加工,指对原提问式进行解释性或编译性的加工,生成便于机器处理的目标提问式。加工方式常有顺序检索中的表展开法、倒排检索分别以菊池敏典法和福岛方式 ④检索 菊池敏典算法 展开表概念 1968年,日本科技情报中心的菊池敏典研究出脱机批处理检索信息的表展开法(菊池敏典算法) 属于传统的布尔逻辑检索模型,基于文本信息检索,主要适用于二次文献信息的检索。 主要思想是将代表用户的逻辑提问式转换成表的形式。该表规定了表的内容走向和是否命中的判断,检索时根据表的走向及其相关信息来判断每条记录是否命中。 菊池敏典算法 表展开法的概念 用表来表达逻辑提问式,要求: 能够充分体现提问式中复杂的逻辑运算关系 能够准确反映每个检索词的检索匹配要求 能够准确给出记录最终的命中与否 菊池敏典算法 最简单的例子 以展开表法处理提问查询 A*B 表中,“命中”表示被查比的文献满足查询要求的出口,“落选”表示反之 菊池敏典算法 当一篇文献满足条件A时,还应再去查比提问条件B是否也能被满足。如果能,则该文献应被该提问选中,否则,该文献没有被该提问所选中,即落选。 当一篇文献不能满足检索条件A时,则不必再去查比检索条件B是否能被满足,即可判定该文献也为落选。 菊池敏典算法 菊池敏典算法 过程 菊池敏典算法——展开表生成 前处理 判断提问式中的字符,从上而下填写表格 若是检索词 则将其存入展开表内的检索词栏,并记下在表中的地址 若是运算符 “+”:前一词满足,指向“*”;不满足,指向后一词 “*”:前一词满足,指向后一词 若是括号 “(”:逢“(”在其后的检索词所在行的“级位”栏值加1 “)” :逢“)”在其后的检索词所在行的“级位”栏值减1 若遇结束,则最后一个检索词所在行的“条件满足指向”栏放入“命中”,“条件不满足”放入“落选” 菊池敏典算法 后处理 依据表中“级位”值,从下而上填写 若当前行级位值大于上一行的级位值,表示上一行的检索词后有右括号 若所在行的“条件不满足指向”栏为“空”,则表明当前行和上一行的检索词之间为“*”运算,应把上一行“落选”内容复制到当前行的不满足栏 若所在行的“条件满足指向”栏为“空”,则表明当前行和上一行的检索词之间为“+”运算,应把上一行“命中”内容复制到当前行的不满足栏 若当前行的级位值等于上一行的级位值,则作以下处理: 若所在行的“条件不满足指向”栏为“空”,复制上一行“落选”内容到当前行的不满足栏 若所在行的“条件满足指向”栏为“空”,复制第一个右括号或提问式结束号前检索词所在行的满足栏内容到当前行的满足栏 若当前行的级位值小于上一行的级位值,表示当前行的检索词前有左括号: 若所在行的“条件不满足指向”栏为“空”,复制表中已处理过的第一个与当前行级位值相等或小的不满足栏到当前行的不满足栏 若所在行的“条件满足指向”栏为“空”,复制当前行紧后复合检索项中最后一个检索词所在词所在行的满足栏内容到当前行的满足栏 菊池敏典算法—展开表生成示例 菊池敏典算法—展开表法的检索 生成的展开表为若干逻辑提问式的集合,形成展开表提问档 检索时,提问展开表调入内存 查比时,每从数据库中读取一条记录,生成一个由可检索项组成的检索标识表,每一检索项查对展开表,并对命中的检索词做上标记 所有检索项查询完毕,分析提问是否命中,命中者在相应的提问号下记下记录号 再取下一记录比对 菊池敏典算法——优点 以提问中的提问条件项为检索查比的主动项 由于每个独立的提问所涉及的提问条件项的属性范围都不太多,因此,检索时,在文献巾查找的范围只需局限于单个提问所涉及的那一小部分(如关键词,标题

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档