信息检索模型.ppt

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第二章信息检索模型布尔检索模型最早的IR模型,也是应用最广泛的模型目前仍然应用于商业系统中Lucene是基于布尔(Boolean)模型的布尔检索模型布尔(Boolean)模型是基于集合论和布尔代数的一种简单检索模型。用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。在传统的布尔模型中,每一文献用一组标引词表示。Dj=(K1,K2,K3,…,Km)表示文献Dj,式中K1,K2,K3,…,Km表示文献Dj中的所有标引词集合。布尔模型描述布尔检索模型文档与标引词建立一个布尔关系。用若干标引词的布尔表达式来表达和解释查询Q。对于一个表示为Q=(K1ANDK2)OR(K3AND(NOTK4))的提问式,系统的响应必须是这样一组文献集合:这些文献中都含有标引词K1和K2,或者含有标引词K3但不含有标引词K4。常用的布尔逻辑组配运算符有:逻辑“与”(AND,常用符号“∧”表示)、逻辑“或”(OR,常用符号“∨”表示)、逻辑“非”(NOT,常用符号“-”表示)。布尔检索模型举例Q=病毒AND(计算机OR电脑)ANDNOT医文档:D1:…据报道计算机病毒最近猖獗D2:小王虽然是学医的,但对研究电脑病毒也感兴趣…D3:计算机程序发现了艾滋病病毒传播途径上述文档哪一个会被检索到?举例将提问式Q=病毒AND(计算机OR电脑)ANDNOT医改写成等价析取范式形式Qdnf=(病毒AND计算机ANDNOT电脑ANDNOT医)OR(病毒ANDNOT计算机AND电脑ANDNOT医)OR(病毒AND计算机AND电脑ANDNOT医)简化Qdnf=(1,1,0,0)∨(1,0,1,0)∨(1,1,1,0)举例D1,D2,D3的文档向量D1=(1,1,0,0)D2=(1,0,1,1)D3=(1,1,0,0)由于D1,D3与提问式相匹配,所以只有D1,D3能被检索到传统布尔检索模型的优缺点优点:1.逻辑运算符少,便于学习2.模式易构造,可以通过简单关系来体现检索项的联系3.可以将复杂检索过程以简单的检索式表达4.检索提问式较灵活,方便修改传统布尔检索模型的优缺点如要检索“布尔检索或概率检索但不包括向量检索”方面的文档,其相应的查询表达式为:Q=检索and(布尔or概率not向量),那么Q可以在其相应的(检索,布尔,概率,向量)标引词向量上取(1,1,0,0)(1,0,1,0)(1,1,1,0),那么文档Dj的向量如果与这中间一个相等,那么即可认为他们之间存在相似关系,而这种相互关系也是布尔值,即sim(Q,Dj)只能为0或1。这也就是布尔模型的局限性所在,描述所有关系都是布尔值,而现实中文档与标引字或者标引字与查询语句之间的关系都不可能只是有关系或者没关系,换句话说布尔模型中无法描述关系的密切程度。传统布尔检索模型的优缺点缺点:布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回非常刚性:“与”意味着全部;“或”意味着任何一个很难控制被检索的文档数量原则上讲,所有被匹配的文档都将被返回很难对输出进行排序不考虑索引词的权重,所有文档都以相同的方式和查询相匹配很难进行自动的相关反馈如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询式呢?向量空间模型向量模型通过分派非二值权重给查询和文档中的标引词来实现检索目标。这些权重用于计算系统中的每个文档与用户的查询请求的相似程度,向量模型通过对文档按照相似程度降序排列的方式,来实现文档与查询项的部分匹配。这样做的结果中的文档排列顺序比通过布尔模型得到的结果要合理得多。定义:在向量空间模型中,标引词Ki在文档Dj中的权重Wij是一个大于0的非二值数。文档Dj可以看做是一个向量:Dj=(W1j,W2j,W3j………Wtj)其中,t是文档集中所有标引词的数目。用户查询中的标引词也是有权重的,设Wiq是用户检索提问式(查询)Q的标引词Ki的权重,且Wiq≥0,则查询向量Q被定义成:Q=(W1q,W2q,W3q…………Wtq)。衡量文档和查询的相关度转化成计算文档向量和查询向量之间的相似度。一般使用文档向量和查询向量之间的夹角余弦值来计算它们之间的相似度。逻辑模型相关概念1.文档大型文本集合,通常用d表示(它可以是一个标题,一个摘要,一本书或是与主题相关的一个句子。)

文档评论(0)

金华 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档