网站大量收购闲置独家精品文档,联系QQ:2885784924

03信息检索模型整理.ppt

  1. 1、本文档共98页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
03信息检索模型整理

* * * * * * * * * * * * * * * * * * * * * * * * * 对LSI的理解 最佳近似矩阵 从数据压缩的角度看,Xhat是秩为k的前提下矩阵X的全局最佳近似矩阵。 降维 LSI不同于向量空间模型(VSM)中文档和词汇的高维表示,而是将文档和词汇的高维表示投影在低维的潜在语义空间(Latent Semantic Space)中,缩小了问题的规模,得到词汇和文档的低维表示。 语义关联的发现 对应于小奇异值的奇异向量被忽略后,噪声被大量消减,而使语言单元之间的意义上的相关性显示出来。 潜在语义空间中(不论是文档空间,还是词汇空间),每个维度代表了一个潜概念(Latent Concept) 利用LSI进行检索 对查询式的要求 和传统的基于关键词的查询不同,潜语义检索允许用户提交类似于自然语言的查询条件,而不一定必须是几个分离的词汇。 查询式越长,提供的信息需求越充分,越明确 对查询式q进行处理 检索过程 检索过程就是把查询式的集合视为是一个虚拟的文件,检索的任务是把这个虚拟的文件和其他文件做相似性比较, 挑选最相似的出来 相似度计算方法可以采用线性代数理论中的各种方法,比如向量夹角等,根据实际情况而定 适用性 多数情况下,潜在语义索引的性能好于向量空间模型,因为利用了同现度 潜在语义索引的应用依赖于具体的文档集合 适用于词汇异构度很高的文档集合 从应用角度,计算量太大 框架定义完整,优化准则清楚 本章小结 介绍了布尔模型和向量空间模型 介绍了概率模型和基于语言模型的信息检索模型 介绍了基于本体的信息检索模型及以及隐性语义索引的信息检索模型 * * * * * * * * * * * * * * * * * * * * * * * * * * * * 举例——智能拼音输入问题 yi zhi xiao hua mao 一 之 小 华 毛 以 只 校 话 贸 异 之 销 化 猫 已 枝 … 花 … … 值 … … 基于大规模语料库建立的语言模型应该能够告诉我们: p(“一只小花猫”)p(“一枝小花猫”)p(任何其它候选字串) 语言模型和搜索引擎的相似性 利用搜索引擎查找一个词串的过程很象在建立语言模型时统计N-gram出现频度的过程 相同的数据稀疏问题 如果在Google中输入的查询式太长,则很难找到满意的结果 原因:如果查询式包括8个词,索引表中有10万词,则1000008=1040,目前互联网的字节数在T级,也就是1012,因此输入太长的查询式无法找到结果,因为数据稀疏 在建立语言模型时同样存在严重的数据稀疏问题 有人在探讨利用互联网建立语言模型 基于语言模型的IR模型的概念 文档语言模型 每个文档对应一个统计语言模型,称为文档的语言模型(Language Model)。 它主要描述了该文档中各个单词的统计分布特征。 因此每个文档看作是由其语言模型抽样产生的一个样本。 基于文档语言模型计算查询式的出现概率 一个查询式也可以看作是由文档的语言模型抽样产生的一个样本。 因此可以根据每个文档的语言模型抽样生成检索的概率来对其排序,其概率值越大,则该文档就越满足该检索要求。 举例 假设文档集合中只有1和2两个文本 文本1产生的语言模型1 p1(a)=0.25, p1(b)=0.5, p1(α)=1/64, α∈{c..r} ,剩下的s,t,u,v,w,x,y,z均为0 文本2产生的语言模型2 p2(a)=0.7, p2(b)=0.05, p2(α)=1/64, α∈{c..r} ,剩下的s,t,u,v,w,x,y,z均为0 查询式:q=abacaad p1(q)=0.25*0.5*0.25*1/64*0.25*0.25*1/64?4.8*10-7 p2(q)=0.7*0.05*0.7*1/64*0.7*0.7*1/64?2.9*10-6 例子中的检索结果 从上例中可以看出 q在语言模型1下获得了较低的概率4.8*10-7 q在语言模型2下获得了较高的概率2.9*10-6 说明 文本2比文本1更有可能生成q 若输入q,应该检索出文本2,而不是文本1 和传统概率模型的比较 基本思想完全不同 传统的信息检索概率模型 文档d与检索q的相关度排序函数定义为事件R(文档是否满足检索要求)的概率,即:f(q,d)=P(R|d) ; 相关度排序函数定义虽然比较直观,但相关性是一个抽象的概念,该定义本身没有也无法具体给出R的定义,所以该模型在理论上存在很大的模糊性。 基于语言模型的检索模型 相关度排序函数则定义为由文档的语言模型生成检索的概率,即f(q,d)=p(q|d)。 建立在统计语言模型理论基础上

文档评论(0)

chenchena + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档