第二章信息检索模型解析.ppt

下载文档 降价啦

165
0
约9.07千字
约 75页
2016-03-20 发布于湖北
举报
版权申诉
保障服务

第二章信息检索模型解析.ppt

1、本文档共75页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * * * * * * * * * * * * * * 基于模糊集合的模型布尔模型的理论基础是布尔逻辑和经典集合论基于模糊集合的模型的理论基础是模糊集合论,它用函数计算代替布尔逻辑运算. 基本模糊集合模型令索引项ti在文档dj中的权值为wij(0≤wij ≤1),在查询中出现的索引项ti的权值为wiq. 认为wij= wiq 布尔检索式与文档相似度计算公式布尔检索式赋值公式对于标准布尔检索式,直接利用表中公式计算对于包含多个运算符的检索式,先处理深层的检索子式,再逐层递归处理举例假设有一查询文档为d，其中w1,d=0.7,w2,d=0.2,w3,d=0.1,计算文档d与q的相似度内层检索子式：外层检索式最后得到文档d与查询q的相似度为0.63 分析该模型保留了传统布尔检索模型的结构化特点，能够对检索结果按相似度进行降序排列能够控制输出结果的数量没有对查询式中的检索词赋予权值，而是直接认为查询中的索引项权值和文档中的索引项权值相等扩展布尔模型的思路扩展布尔模型通常从以下两个方面对布尔模型进行改进建立数学模型来表示布尔逻辑通过加权机制改进索引项的权值常用的两个扩展布尔模型基于模糊集合的模型; 扩展模糊集合模型; 扩展模糊集合模型在基本模糊集合模型中，没有对查询式中的检索词赋予权值，而是假设查询中的索引项权值和文档中的索引项权值相等。针对这点，扩展模糊集合模型进行了改进，给文档中的词和检索式中的词赋予不同的权值。在向量空间模型中，查询和文档都采用同一种结构表示，所以没有必要区分查询索引项和文档索引项。但是在布尔模型和模糊模型中，查询的结构化要求区分查询索引项和文档索引项的赋值过程扩展模糊集合模型在布尔检索模型中,给查询项赋予权值后, 相似度计算必须保留布尔模型的特性兼容性与查询索引项赋值为0或者1时的检索结果兼容一致性查询式(t1 or t2) and t3 与查询式 (t1 and t3) or (t2 and t3)检索出相同的文档独立性对查询式进行分段处理,不会影响整个查询式的检索结果一种有效的方式是将查询索引项的权值与文档索引项的权值相乘,即sim(d,ti)=wid*wiq sim(d,ti)表示当查询只有索引项ti时,查询和文档d的相似度举例给定文档d={t1,t2,t3,t4,t5}, 查询q=((t1andt2)ort3)and(t4ort5) 查询索引项和文档索引项的权重假设查询索引项和文档索引项的权重如表所示求sim(d,q) 文档索引项权值查询索引项权值计算得到的相似度值举例（续） Sim(d,q)=sim(d,((t1 and t2) or t3) and (t4 or t5)) 令q1 = (t1 and t2) or t3 q2 = t4 or t5 则sim(d,q) = sim(d,q1)*sim(d,q2) 进一步,令 q3 = t1 and t2 则sim(d,q1) = sim(d,(q3 or t3)) 文档d与各个层次查询的相似度分别如下：举例（续）分析通过上述的例子，可以清楚地看到采用扩展的模糊集合计算相似度的方法。同时，也要注意到利用上述方法计算查询与文档的相似度时，有两点不足：每篇文档与查询相似度的大小依赖于查询式的长度和乘数操作的次数，相似度数值不稳定；文档与查询相似度的数值大小有时受and子查询式中一些不重要的词（也即权值很小的词）控制。主要内容信息检索的预备知识信息检索模型布尔模型向量空间模型扩展布尔模型要求了解模型的基本思想、优缺点至少掌握一种模型思考题如何向量空间模型判断两段程序之间是否存在抄袭？采用基本模糊集合模型计算文档d和查询q的相似度.其中q = (t1 and not t2) or t3, w1,d = 0.6, w2,d = 0.1, w3,d = 0.3 布尔检索式赋值公式课后思考练习: 编写一个程序实现向量空间模型,索引项权值采用tf*idf,相似度公式采用余弦公式 * * * * * * * * * * * * * * * * * * * 索引项的选择降维：模型中向量的维数很大，会引入许多噪声，实际使用中经常采用一些降维策略去停用词对英文进行词干还原只选择名词作为索引项将Term聚成的不同类作为一个个的Term 选择出现次数较多的词作为Term等向量空间模型中的三个关键问题索引项Term的选择索引项权重计算计算每篇文档中每个Term的权重查询和文档的相似度计算。索引项的权重索引项权重用来描述索引项在代表文档内容方面所起的作用考虑方面对描述文档内容的能