完全加权关联规则挖掘及其在查询扩展中应用.docVIP

完全加权关联规则挖掘及其在查询扩展中应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
完全加权关联规则挖掘及其在查询扩展中应用

完全加权关联规则挖掘及其在查询扩展中应用   摘要:为了将完全加权关联规则挖掘技术应用于查询扩展,提出面向查询扩展的基于多种剪枝策略的完全加权词间关联规则挖掘算法,该算法能够极大地提高挖掘效率;提出了一种新的查询扩展模型和扩展词权重计算方法,使扩展词权值更加合理,在此基础上提出一种新的基于局部反馈的查询扩展算法,该算法利用完全加权关联规则挖掘算法自动从局部反馈的前列初检文档中挖掘与原查询相关的完全加权关联规则,构建规则库,从中提取与原查询相关的扩展词,实现查询扩展。实验结果表明,查询扩展算法的检索性能确实得到了很好的改善和提高,与现有查询扩展算法比较,在相同的查全率水平级下其平均查准率有了明显的提高。   关键词:信息检索; 局部反馈; 查询扩展; 关联规则; 项完全加权   中图分类号:TP391文献标志码:A   文章编号:1001-3695(2008)06-1724-04      0引言??      由于Internet网络的开放性和信息发布的容易性,Web信息急剧膨胀,其资源以指数速度增长,导致人们查询信息时出现信息过载和词不匹配等难以克服的问题。如何解决信息过载和词不匹配问题,以致能够高效、准确地从信息的汪洋大海中寻找到更多所需的信息,一直是信息检索领域中一个十分重要而富有挑战的研究课题。查询扩展(query expansion)是解决信息过载和词不匹配问题的关键技术之一,它指的是利用计算机多种技术,以用户原查询为基础,把与原查询相关的词或词组(如同义词、近义词等)添加到原查询,得到比原查询更长的新查询,以便更完整地描述原查询所隐含的语义或者主题,帮助信息检索系统提供更多有利于判断文档相关性的信息。查询扩展能够弥补用户查询信息不足的缺陷,改善和提高信息检索系统的查全率和查准率。传统的查询扩展[1]主要有全局分析的、局部分析的以及基于用户查询日志的和基于关联规则挖掘的查询扩展。   ??   基于关联规则挖掘的查询扩展[2~8]是从数据挖掘的角度对查询扩展进行研究,它利用数据挖掘技术发现与原查询相关的扩展词实现查询扩展,近年来得到较多专家、学者的关注和研究。在现有的基于关联规则挖掘的查询扩展研究中,大多是从全局分析的角度进行,而从局部分析的角度进行的研究不多。然而,基于全局的方法要推广到实际的信息检索系统难度很大,因为全局分析下的文档集很大,其文本数据库中数据项一般都有数千,甚至到数万,由于频繁项集的数量是随着数据库中数据项数目的增加呈指数增长的,即使采取各种剪枝策略,项集的数量还是非常多,致使挖掘词间关联规则的效率和时间无法让用户接受,而用户查询信息时都追求速度快,信息全而准。另一方面,现有的研究中,很少重视研究关联规则的挖掘技术及其质量对查询扩展检索性能的影响,更没有考虑在挖掘词间关联规则时其特征词在不同的事务文档记录中往往有着不同的重要性而引入完全加权的项权重。针对这些问题,本文首先提出面向查询扩展的基于多种剪枝策略的完全加权词间关联规则挖掘算法,该算法能够极大地提高挖掘效率;然后,将完全加权关联规则挖掘技术应用于查询扩展,提出了一种新的查询扩展模型和扩展词权重计算方法,使扩展词权值更加合理,在此基础上进一步提出一种新的基于局部反馈的查询扩展算法,该算法利用完全加权关联规则挖掘算法自动从局部反馈的前列初检文档中挖掘与原查询相关的完全加权关联规则,构建规则库,从中提取与原查询相关的扩展词,实现查询扩展。实验结果表明,该算法能改善和提高信息检索系统查全率和查准率,与现有对比算法比较,在相同的查全率水平级下其平均查准率有明显的提高。??      1基于多种剪枝策略的完全加权关联规则挖掘算法??      1.1基本概念??   基于向量空间模型的文本数据库中,每个特征词项不仅在数据库中有着不同的重要性,而且在不同的文档记录中有着不同的权重,在挖掘词间关联规则时应该反映这些不同的权值。在进行词间关联规则挖掘时,如果充分考虑了各个特征词项在不同文档记录中有着不同权重,则这种挖掘就称为项完全加权关联规则挖掘,简称为完全加权关联规则挖掘。完全加权关联规则支持度和置信度,以及完全加权频繁项集和强关联规则的概念详见文献[9],这里不再详述。??      式(6)左边部分正好是包含完全加权q??-项集T1的k-项集最大可能支持度,由此可知,包含T1的完全加权k-项集一定是非频繁项集(证毕)。??   定理2对于完全加权k-项集的任何子集,只要至少存在一个子集的权值之和小于其k-权值阈值,则该k-项集一定是非频繁项集。??   证明根据题设,对于完全加权k-项集的任何子集,至少存在一个子集的权值之和小于其k-权值阈值,不妨令该子集为T??sub,则由定理1可知道,包含T??sub的k-项

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档