03信息检索模型.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
03信息检索模型

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 三个问题 给定矩阵A, 基于A可以问三类同文件检索密切有关的问题 术语i和j有多相似? 即术语的类比和聚类问题 文件i和j有多相似? 即文件的类比和聚类问题 术语i和文件j有多相关? 即术语和文件的关联问题 三个问题的答案 比较两个术语 做正向乘法: Xhat*XhatT=T*S*DT*D*S*TT=T*S2*TT=(TS)*(TS)T DT*D=I, 因为D已经是正交归一的 ,s=sT 它的第i行第j列表明了术语i和j的相似程度 比较两个文件做逆向乘法: XhatT*Xhat=D*S*TT*T*S*DT=D*S2*DT=(SD)(SD)T TT*T=I, 因为T已经是正交归一的, s=sT 它的第i行第j列表明了文件i和j的相似程度 比较一个文件和一个术语恰巧就是Xhat本身. 它的第i行第j列表明了术语i和文件j的相关联程度. 示例 原始矩阵A 示例 SVD分解: 示例 A降维处理:B=S2*2DT2*d 图示: 示例 向量夹角余弦值: 文本之间相似度矩阵 CosSim(Di, Q) = 降维前后的对比 表中列出了文档在新空间的相似度,d1和d2之间的相似度为0.78,d4,d5和d6为0.94,0.93,0.74,而在原空间上两者的值是相等的。 在原空间中,d2,d3没有共同的单词,相似度为0,但是在新空间中的相似度为0.88之所已有这种结果,在于它们之间存在着同现模式。 查询处理 如何在降维空间中表示查询字段和新增文档 查询可以作为一个伪文档 每次重新计算SVD,计算量太大 解决方案:A=TSDT,TTA=TTTSDT,TTA=SDT 新的查询q,再降维后新空间表示为Tt*kTq(可以理解为一种映射) 对LSI的理解 最佳近似矩阵 从数据压缩的角度看,Xhat是秩为k的前提下矩阵X的全局最佳近似矩阵。 降维 LSI不同于向量空间模型(VSM)中文档和词汇的高维表示,而是将文档和词汇的高维表示投影在低维的潜在语义空间(Latent Semantic Space)中,缩小了问题的规模,得到词汇和文档的低维表示。 语义关联的发现 对应于小奇异值的奇异向量被忽略后,噪声被大量消减,而使语言单元之间的意义上的相关性显示出来。 潜在语义空间中(不论是文档空间,还是词汇空间),每个维度代表了一个潜概念(Latent Concept) 利用LSI进行检索 对查询式的要求 和传统的基于关键词的查询不同,潜语义检索允许用户提交类似于自然语言的查询条件,而不一定必须是几个分离的词汇。 查询式越长,提供的信息需求越充分,越明确 检索过程 检索过程就是把查询式的集合视为是一个虚拟的文件,检索的任务是把这个虚拟的文件和其他文件做相似性比较, 挑选最相似的出来 相似度计算方法可以采用线性代数理论中的各种方法,比如向量夹角等,根据实际情况而定 适用性 多数情况下,潜在语义索引的性能好于向量空间模型,因为利用了同现度 潜在语义索引的应用依赖于具体的文档集合 适用于词汇异构度很高的文档集合 从应用角度,计算量太大 框架定义完整,优化准则清楚 本章小结 介绍了布尔模型和向量空间模型 介绍了概率模型和基于语言模型的信息检索模型 介绍了基于本体的信息检索模型及以及隐性语义索引的信息检索模型 * * * * * * * * * * * * * * * * * * * * 改进 V表示用概率模型初步检出的经过排序的子集,Vi为包含ki的V的一个子集。为了改善概率排序,需要对上述初始化公式改进: 通过迄今已检出的文献中标引词ki的分布来估计 通过假定所有未检出的文献都是不相关的来估计 这一过程可以递归重复 概率模型小结 优点 文档可以按照他们相关概率递减的顺序来排序。 缺点 开始时需要猜想把文档分为相关和不相关的两个集合,一般来说很难 实际上这种模型没有考虑索引术语在文档中的频率(因为所有的权重都是二值的) 假设标引词独立 概率模型是否要比向量模型好还存在着争论,但现在向量模型使用的比较广泛。 基于统计语言模型的信息检索模型 统计语言模型 统计语言模型在语音识别中产生 argmax p(s|a),s是文字串,a是声学参数串 argmax p(s|a)=argmax p(a|s)p(s)/p(a) 忽略p(a),p(a|s)是声学模型 p(s)是语言模型 p(s)=p(w1,w2,w3,…,wn)=?i=1…n p(wi|hi) n表示句子长度 hi=w1,w2,…,wi-1,代表上下文 从文档中建立语言模型 原始文本 s0 s He can buy you t

文档评论(0)

ccx55855 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档