第二章信息检索模型解析.ppt

  1. 1、本文档共75页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * 基于模糊集合的模型 布尔模型的理论基础是布尔逻辑和经典集合论 基于模糊集合的模型的理论基础是模糊集合论,它用函数计算代替布尔逻辑运算. 基本模糊集合模型 令索引项ti在文档dj中的权值为wij(0≤wij ≤1),在查询中出现的索引项ti的权值为wiq. 认为wij= wiq 布尔检索式与文档 相似度计算公式 布尔检索式 赋值公式 对于标准布尔检索式,直接利用表中公式计算 对于包含多个运算符的检索式,先处理深层的检索子式,再逐层递归处理 举例 假设有一查询 文档为d,其中w1,d=0.7,w2,d=0.2,w3,d=0.1,计算文档d与q的相似度 内层检索子式: 外层检索式 最后得到文档d与查询q的相似度为0.63 分析 该模型保留了传统布尔检索模型的结构化特点,能够对检索结果按相似度进行降序排列 能够控制输出结果的数量 没有对查询式中的检索词赋予权值,而是直接认为查询中的索引项权值和文档中的索引项权值相等 扩展布尔模型的思路 扩展布尔模型通常从以下两个方面对布尔模型进行改进 建立数学模型来表示布尔逻辑 通过加权机制改进索引项的权值 常用的两个扩展布尔模型 基于模糊集合的模型; 扩展模糊集合模型; 扩展模糊集合模型 在基本模糊集合模型中,没有对查询式中的检索词赋予权值,而是假设查询中的索引项权值和文档中的索引项权值相等。针对这点,扩展模糊集合模型进行了改进,给文档中的词和检索式中的词赋予不同的权值。 在向量空间模型中,查询和文档都采用同一种结构表示,所以没有必要区分查询索引项和文档索引项。但是在布尔模型和模糊模型中,查询的结构化要求区分查询索引项和文档索引项的赋值过程 扩展模糊集合模型 在布尔检索模型中,给查询项赋予权值后, 相似度计算必须保留布尔模型的特性 兼容性 与查询索引项赋值为0或者1时的检索结果兼容 一致性 查询式(t1 or t2) and t3 与查询式 (t1 and t3) or (t2 and t3)检索出相同的文档 独立性 对查询式进行分段处理,不会影响整个查询式的检索结果 一种有效的方式是将查询索引项的权值与文档索引项的权值相乘,即sim(d,ti)=wid*wiq sim(d,ti)表示当查询只有索引项ti时,查询和文档d的相似度 举例 给定文档d={t1,t2,t3,t4,t5}, 查询q=((t1andt2)ort3)and(t4ort5) 查询索引项和文档索引项的权重 假设查询索引项和文档索引项的权重如表所示 求sim(d,q) 文档索引项权值 查询索引项权值 计算得到的相似度值 举例(续) Sim(d,q)=sim(d,((t1 and t2) or t3) and (t4 or t5)) 令q1 = (t1 and t2) or t3 q2 = t4 or t5 则sim(d,q) = sim(d,q1)*sim(d,q2) 进一步,令 q3 = t1 and t2 则sim(d,q1) = sim(d,(q3 or t3)) 文档d与各个层次查询的相似度分别如下: 举例(续) 分析 通过上述的例子,可以清楚地看到采用扩展的模糊集合计算相似度的方法。 同时,也要注意到利用上述方法计算查询与文档的相似度时,有两点不足: 每篇文档与查询相似度的大小依赖于查询式的长度和乘数操作的次数,相似度数值不稳定; 文档与查询相似度的数值大小有时受and子查询式中一些不重要的词(也即权值很小的词)控制。 主要内容 信息检索的预备知识 信息检索模型 布尔模型 向量空间模型 扩展布尔模型 要求 了解模型的基本思想、优缺点 至少掌握一种模型 思考题 如何向量空间模型判断两段程序之间是否存在抄袭? 采用基本模糊集合模型计算文档d和查询q的相似度.其中q = (t1 and not t2) or t3, w1,d = 0.6, w2,d = 0.1, w3,d = 0.3 布尔检索式 赋值公式 课后思考练习: 编写一个程序实现向量空间模型,索引项权值采用tf*idf,相似度公式采用余弦公式 * * * * * * * * * * * * * * * * * * * 索引项的选择 降维:模型中向量的维数很大,会引入许多噪声,实际使用中经常采用一些降维策略 去停用词 对英文进行词干还原 只选择名词作为索引项 将Term聚成的不同类作为一个个的Term 选择出现次数较多的词作为Term等 向量空间模型中的三个关键问题 索引项Term的选择 索引项权重计算 计算每篇文档中每个Term的权重 查询和文档的相似度计算。 索引项的权重 索引项权重用来描述索引项在代表文档内容方面所起的作用 考虑方面 对描述文档内容的能

文档评论(0)

挑战不可能 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档