05文本处理与信息检索2.ppt

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
05文本处理与信息检索2.ppt

文本处理与信息检索 第二讲 非传统的IR方法 传统IR检索模型的缺陷 1、单个单词不包含用语言编码的所有信息 2、一个单词可能有多种含义,即一词多义 3、大量的单词可能具有相似的含义,即多词一义 4、词组的含义往往超过其中的单词含义的总和 5、对词组的检索出现冗余信息 6、查询还是基于关键字,不能对句子进行分析查询 7、不能实现跨语言检索 改善IR性能的方法 将NLP(自然语言处理)技术运用于 IR中 使用领域知识改善IR性能 基于自然语言处理的智能搜索引擎体系结构框图 自然语言处理器 知识库 有类似于人类的背景知识和相应的推理规则组成 词法及句法知识 语义及语用知识 常识 语料库 词典数据库 禁用词表 反向词汇统计表 概念提取 利用设定程序对用户输入的查询语句进行自动分词,并经过句法及语义分析,去掉无用的虚词,获得能正确表达查询句意思的概念性词或词组、 短语,并以此作为查询的基本输入概念到检索数据库进行检索。 概念提取的关键是要有一套完美的语义分析系统 经过概念提取后,用户输入被处理成一系列独立的词和短语的集合,在此统称为概念,取其不同的概念构成概念集Q,并且概念间是“and”关系。 Q={t1,t2,…,ti,…,tn} 如果计上它们的频数则变为: Q’(q)={(t1,f(q,t1)),(t2,f(q,t2)),…,(tn,f(q,tn))} 其中f(q,ti)表示查询语句被处理概念ti的相应频数 查询扩展 查询扩展将用户输入的原始查询请求经过概念提取后,自动地根据概念集Q中的内容,去查询同义词典,加入新的概念。扩展的概念由Q中各概念的同义词组成,即最终的查询请求是由Q中各概念的同义词组成。 Q={t1,t2,…tn}经查询扩展以后为 U={T(t1),T(t2),…,T(tn)},其中T(t i)是同义词典中与ti有相同语义码的概念集。 将U加上频数可得 U’={(T(t1),f(q,t1)),(T(t2),f(q,t2)),…,(T(tn),f(q,tn))} 个性化处理 该模块长期侦测用户的输入,评估用户的兴趣,对用户的多次输入进行加权处理后再去检索模块,每隔一段时间将检索结果中相似度最高的几个文档发送给用户。 不断地从查询扩展模块中获得经处理后的用户查询信息U和U’的值,对概念集取(这里的概念集取指将概念扩展为具有相同语义码的概念集)并运算,相应的权值取和,即 U+= ={T(t1),T(t2),…,T(tn)} 其中M表示用户的总计查询次数 对 中概念的权值设一阀值函数f(q,M),给 中的概念实行剪枝 (a为调解系数) 与 对应的概念集记为U+(M) 将此结果送到索引模块建立查询向量 文档处理 文档处理既是将文本文档处理为相应的文档表示 例如我们用向量空间检索模型来表示文档Di Di=((t1,s1),(t2,s2),…,(tn,sn)) 其中si是概念ti在文档Di中出现的频数。 自动文摘 自动文摘是检索时返回文档的简要概述,是语言理解和语言生成的结合。理解,就是对文档中的每一个语句进行句法、语义分析,对全文作篇章分析,然后确定文章的主要意思;生成,则是要选择恰当的词汇和句法方式来表达这个意思。 这对自然语言的要求很高,实现较为困难 目前生成的文摘大多是摘录性的,即把全文中能表达文章主要意思的句子挑选出来,合在一起作为文摘 总结 该模型使用了概念提取模块将用户的查询输入进行处理、提炼,去除无用的成分,形成一个能准确表达用户查询的简洁的概念集Q。利用查询扩展模块扩展概念集Q得到Q中各概念的同义概念集Q’,并以此作为查询概念,用以提高引擎的查全率。个性化处理用以监测用户的兴趣,自动反馈用户信息,反馈的信息是用户感兴趣的信息。自动文摘显示的是文档中权重最高的几个概念,这样更能反映文档的内容。经过自然语言处理器处理过的最终查询请求是一系列概念集组成的集合。 使用域知识改善IR性能 在一个基于知识的IR模型中,针对一个域的信息,称为域知识,它用于把概念、事件和概念与事件之间的相互关系模型化 例如,对于题目“多媒体信息检索”,条目“多媒体”、“音频”、“视频”、“图像”、“信息”、“索引”和“检索”都与该题目有关。 若用属于该题目的不同权重值的条目构建一个完

文档评论(0)

heroliuguan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档