第2章 信息检索模型.pptVIP

  1. 1、本文档共82页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 信息检索模型 内容提要 信息检索系统的形式化表示 布尔逻辑模型 向量空间模型 概率模型 其他检索模型 信息检索模型 信息检索模型是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。 本质上是对相关度建模。 信息检索模型是IR中的核心内容之一。 信息检索模型 一个信息检索模型是由文档表示、查询、关系、模型框架构成的四元组。 四元组:System=(D,Q,F,R(dj,qi)) D 文档集的表示 Q 用户需求的表示 F 文档表示、查询表示和他们之间关系的模型框架(Frame) R(dj ,qi) 给出Query qi和Document dj 的评分 文档逻辑视图 D是一个文档集合,通常由文档逻辑视图来表示。可以是一组索引词或关键词。既可以自动提取,也可以是由人主观指定。 匹配处理框架(F) 在信息集合(D)与需求集合(F)之间建立模型化处理的框架与规则。 不同检索模型的匹配处理的数学机制是不同的。 布尔模型:集合论的基本运算 向量空间模型:多维向量空间理论和向量线性代数 概率模型:集合论、概率运算和Bayes法则 匹配计算函数R 匹配函数R(dj,q)用于计算任一信息dj(dj∈D)与任一提问q(q∈Q)形成的信息——提问对(dj,q)之间的相似度大小。一般地,R(dj,q)的函数值为一实数,其取值区间为[0,1] 匹配函数的特点: 计算方法简单,计算量小; 函数值在取值区间均匀分布; 针对某一提问所获取的相关文档集合,能够实现合理的排序输出。 信息检索模型决定于: 从什么样的视角去看待查询式和文档? 基于什么样的理论去看待查询式和文档的关系? 如何计算查询式和文档之间的相似度? 模型的分类 从所使用的数学方法上分: 基于集合论的IR模型(Set Theoretic models) 布尔模型 基于模糊集的模型 扩展布尔模型 基于代数论的IR模型(Algebraic models) 向量空间模型 潜性语义索引模型 基于概率统计的IR模型(Probabilistic models) 回归模型 二元独立概率模型 语言模型建模IR模型 1 布尔模型(Boolean Model) 布尔模型是建立经典集合论和布尔逻辑代数的基础上。 优势: “集合”概念直观 容易被理解和接受 布尔模型的基本原理 布尔模型在解释信息检索处理过程时,主要遵守的两 条原则: 系统索引词集合中的每一个索引词在一篇文档中只有两种状态:出现或不出现。每个索引词的权值wij∈{0,1} 检索提问式q由三种布尔逻辑运算符“and”、“or”、“not”连接索引词来构成。 根据布尔逻辑的运算规定,提问式q可以被表示成由合取子项(conjunctive components)组成的析取范式(disjunctive normal form,简称dnf)形式。 如:提问式 q = k1 and (k2 or not k3)可写成等价的析取范式形式: q dnf = (k1 and k2 and k3) or (k1 and k2 and not k3) or (k1 and not k2 and not k3 ) 这里q dnf是提问式q的主析取范式。可进一步简化表示 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0) 其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf的三个合取子项qcc,他们是一组向量,由对应的三元组(k1 , k2 , k3)的每一个分量取0或1得到。 基于以上规则和假定,布尔模型对于任一篇文献dj∈D,定义与用户提问q的匹配函数为: 1 如果存在qcc|(qcc∈qdnf)且对于任意ki, 有 gi(dj) = gi(qcc) Sim(dj,q)= 0 其他 例如: 文档集合D存在两篇文档d1和d2,其中,d1含有关键 词k1和k2,d2含有关键词k1和k3,则它们的文档向量分别为: d1 =(1,1,0) , d2 =(1,0,1) 根据匹配函数的定义,显然,d1与提问式q = k1 and (k2 or not k3)的匹配函数值是1,即d1与提问q是相关的; d2与 提问式q的匹配函数值是0, 表明d2与提问q是不相关的。 课堂练习题(1) 课堂思考题: 想查关于今年超女5进4比赛的新闻,用布尔模型怎么构造查询? 参考答

文档评论(0)

yan698698 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档