信息检索中文版11-15.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
61 检索有效性(27) 组合文档的表示方法 *一个文档可能有不同的表示方法 –有规律的关键词的表示法 –文章的表示法 –参考文献的表示法 –仅表示标题 –多媒体表示法 * 一个查询可以把所有的表示和结果组合产生单个结果 62 检索有效性(28) 组合查询方法的表示 *一个用户的信息需求,可以不同的方式表示 –有规律的关键词的表示法 –基于短语的表示法 –布尔表示法 –甚至不同的关键词的表示法 *同一查询的不同表示结果,可处理组合产生一个单一的结果。 63 检索有效性(29) 排名算法相结合的方法 *不同的排名算法可以由同一情报检索系统实现: - 余弦函数具有不同权重 - 霍加皮功能的不同参数 - 概率排序算法 *不同的算法来对同一查询和结果的评估可以被合并成一个单一的结果。 64 检索有效性(30) 组合法的搜索系统 *同样的查询可能会由不同的搜索系统处理,其结果可以组合产生一个单一的结果。 *一个实际的例子是一个整合搜索引擎,但多数在情报检索方面的研究认为所有搜索 系统搜索的是相同的文档集合。 65 检索有效性(31) 关于组合法的几个一般性意见: *使用不同的个体定义的方法出现重叠现象的几率很小 *不同的个体定义的方法倾向于检索有关文件相同的设置(但不一定排名相同)而不是不相关文件的不同设置 *如果不同的个体定义的方法是独立的,并且相当不错的,该组合是最有效的方法 66 检索有效性(32) 合并/集合功能相结合的方法: * 许多合并职能已试行,例如:基于标准化的个体定义结果的最大值、最小值、总和和加权平均 * 已发现的最有效的功能是总和*对非零分数 - 此功能是与上一张幻灯片的第二次观测结果一致。 * 合并使用行列发现比使用标准化分数有效的结果要少。 67 高效检索(1) 文件项矩阵 Wij是tj项在文档di中的权重 大多数Wij会是0 68 高效检索(2) 考虑查询 怎么求q的值(即计算q和每个文档之间的相似性)? 方法1:直接比较q与每个文件 文件的数据结构 只有该项的正权重可以保留 条件是按字母顺序 结构化查询数据: 69 高效检索(3) 方法1:直接比较q与每个文件(续) 算法 初始化所有SIM 将文件降序排序并显示最前的K给用户; 70 高效检索(4) 观察:方法1是不是在文件中,最需要长期矩阵非零项有效 被访问。 方法2:使用倒排文件索引 结构的几个数据: 1、为每一个tj项创建一个列表(倒排文件清单)包含所有含有tj项的文件的ID di是第i个文件的ID号 只有非零权重项应予保留。 71 高效检索(5) 方法2:使用倒排文件索引 结构的几个数据: 2、文件正常化的因素是预先计算并存储在数组: 3、创建一个集合中的所有项的哈希表。 倒排文件清单通常存储在磁盘上。 不同条件的人数通常是非常大的。 72 高效检索(6) 方法2:使用倒排文件索引 算法: 将文件降序排序并显示最前的K给用户; 73 高效检索(7) 方法2的一些意见 *如果一个文档d不包含任何一个给定的查询q词,将不会参与在的评估*只有非零列项在文档中短期矩阵对应的查询条件来评估查询。*计算方法2多文件同时相似之处。文件还有助于评价布尔查询*基本查询(如T1和T2),计算出该文件的交集1)和()。*基本或查询,计算出该文件的1)和()*对于纯布尔查询处理,没有权重是必要的。文档聚类*文档聚类分组类似文件到同一不同的文件到不同的集群。*集群也被称为无监督学习。*文档聚类在很多情况下是有用的 - 对于组织文件(库和浏览) - 基于聚类检索 - 对于组织搜索结果文档聚类存在不同的聚类方法*启发式方法*图法*分区法*分层法*基础密度法*网格法*基于模型的聚类方法文档聚类单一的启发式方法*从一个文件任意阶开始。*使用第一个文档群集。*对于每个后续文件,计算其与各现有群集的相似性。如果最大相似度超过阈值,分配到相应的群集,否则,形成一个基于新的群集文档聚类单一的启发式方法*一个文档d和C之间的相似可以用不同的方式定义- D和C中的相似平均- D和C的重心之间的相似性文档聚类单一的启发式方法*c的重心:如果每个文档表示为一个向量与权重计算,那么质心是文档聚类单一的启发式方法*优势:高效。*缺点:敏感和质量差。*可以使用文件再分配来提高质量经过初期的簇得到在每一组确定文件的异同与群集大大低于平均水平,并移动到最接近的簇。文档聚类图法一个文件的集合可以表示为一个加权无向图G(V,E)其中每个顶点对应一个文件每条边对应于两个文件之间的相似性和积极的相似性,是在边缘的重量。一个相似度阈值T可以被用来降低图:文档聚类图法连接组件的方法:形成群集使用相同连通的文件。*优点:秩序不敏感;效率。*缺点:异种文件可能会出现在同一个集群文档聚类

文档评论(0)

zhanghc + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档