文本处理与信息检索.pptxVIP

下载本文档

0
0
约8.42千字
约 10页
2025-07-09 发布于四川
举报
版权申诉

文本处理与信息检索.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本处理与信息检索第二讲

非传统的IR方法传统IR检索模型的缺陷1、单个单词不包含用语言编码的所有信息2、一个单词可能有多种含义，即一词多义3、大量的单词可能具有相似的含义，即多词一义4、词组的含义往往超过其中的单词含义的总和5、对词组的检索出现冗余信息6、查询还是基于关键字，不能对句子进行分析查询7、不能实现跨语言检索

将NLP（自然语言处理）技术运用于IR中使用领域知识改善IR性能改善IR性能的方法

基于自然语言处理的智能搜索引擎体系结构框图自然语言处理器知识库用户接口概念提取文档处理查询扩展个性化处理自动文摘web网页下载索引模块索引数据库检索模块查询修正初始查询检索结果按权排序反馈查询S+S-

有类似于人类的背景知识和相应的推理规则组成01词法及句法知识02语义及语用知识03常识04语料库05词典数据库06禁用词表07反向词汇统计表08知识库

利用设定程序对用户输入的查询语句进行自动分词,并经过句法及语义分析,去掉无用的虚词,获得能正确表达查询句意思的概念性词或词组、短语，并以此作为查询的基本输入概念到检索数据库进行检索。概念提取的关键是要有一套完美的语义分析系统概念提取

经过概念提取后，用户输入被处理成一系列独立的词和短语的集合，在此统称为概念，取其不同的概念构成概念集Q，并且概念间是“and”关系。Q={t1,t2,…,ti,…,tn}如果计上它们的频数则变为：Q’(q)={(t1,f(q,t1)),(t2,f(q,t2)),…,(tn,f(q,tn))}其中f(q,ti)表示查询语句被处理概念ti的相应频数

查询扩展将用户输入的原始查询请求经过概念提取后，自动地根据概念集Q中的内容，去查询同义词典，加入新的概念。扩展的概念由Q中各概念的同义词组成，即最终的查询请求是由Q中各概念的同义词组成。01Q={t1,t2,…tn}经查询扩展以后为02U={T(t1),T(t2),…,T(tn)},其中T(ti)是同义词典中与ti有相同语义码的概念集。将U加上频数可得03U’={(T(t1),f(q,t1)),(T(t2),f(q,t2)),…,(T(tn),f(q,tn))}04查询扩展

该模块长期侦测用户的输入,评估用户的兴趣，对用户的多次输入进行加权处理后再去检索模块,每隔一段时间将检索结果中相似度最高的几个文档发送给用户。不断地从查询扩展模块中获得经处理后的用户查询信息U和U’的值，对概念集取（这里的概念集取指将概念扩展为具有相同语义码的概念集）并运算，相应的权值取和，即个性化处理

AU+=={T(t1),T(t2),…,T(tn)}B其中M表示用户的总计查询次数C对中概念的权值设一阀值函数f(q,M),给中的概念实行剪枝D（a为调解系数）E与对应的概念集记为U+(M)F将此结果送到索引模块建立查询向量

文档处理既是将文本文档处理为相应的文档表示例如我们用向量空间检索模型来表示文档DiDi=((t1,s1),(t2,s2),…,(tn,sn))其中si是概念ti在文档Di中出现的频数档处理

1自动文摘是检索时返回文档的简要概述，是语言理解和语言生成的结合。理解，就是对文档中的每一个语句进行句法、语义分析，对全文作篇章分析，然后确定文章的主要意思；生成，则是要选择恰当的词汇和句法方式来表达这个意思。2这对自然语言的要求很高，实现较为困难3目前生成的文摘大多是摘录性的，即把全文中能表达文章主要意思的句子挑选出来，合在一起作为文摘自动文摘

总结该模型使用了概念提取模块将用户的查询输入进行处理、提炼，去除无用的成分，形成一个能准确表达用户查询的简洁的概念集Q。利用查询扩展模块扩展概念集Q得到Q中各概念的同义概念集Q’,并以此作为查询概念，用以提高引擎的查全率。个性化处理用以监测用户的兴趣，自动反馈用户信息，反馈的信息是用户感兴趣的信息。自动文摘显示的是文档中权重最高的几个概念，这样更能反映文档的内容。经过自然语言处理器处理过的最终查询请求是一系列概念集组成的集合。

1在一个基于知识的IR模型中，针对一个域的信息，称为域知识，它用于把概念、事件和概念与事件之间的相互关系模型化2例如，对于题目“多媒体信息检索”，条目“多媒体”、“音频”、“视频”、“图像”、“信息”、“索引”和“检索”都与该题目有关。3若用属于该题目的不同权重值的条目构建一个完整的关系树（书上有误），则含有一个或多个这些条目的文档将具有不同的组合权重或与题目有关的相似度。可根据这些相似度进行检索使用域知识改善IR性能

度量信息检索性能的三个参数：1检索速度：决定检索效率2查全率用来测量一个检索系统的效能3精确度4信息检