关联规则挖掘在分类数据领域的扩展性的分析.pdf

关联规则挖掘在分类数据领域的扩展性的分析.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 摘 要 随着计算机技术在社会各个领域的广泛应用,人们对信息系统的依赖程度越 来越高。面对数据丰富而信息匮乏的困境,在统计学、数据库技术、机器学习、 人工智能、模式识别和可视化技术等相关领域发展的基础上,以发现有用知识为 目的的新兴交叉学科一数据挖掘技术应运而生。 关联规则挖掘作为数据挖掘领域重要的研究方向之一,由于其在零售交易分 析、客户关系管理、网络入侵检测、设备故障诊断、天文光谱分析、蛋白质结构 分析和软件缺陷发现等应用领域的广泛适用性和特有价值,尽管历经二十多年的 发展,仍然备受企业和学术界的高度关注,且正在向着新兴的研究领域扩展。 本文通过对关联规则发展现状的系统性研究,选择了分类数据(Taxonomy) 这一特殊领域作为扩展研究对象。这是因为分类数据作为一种结构化的数据不仅 普遍存在,而且基于分类数据挖掘产生的关联规则蕴含更丰富、更灵活、更具参 考价值的信息,因此该领域的扩展性研究对于实际应用和学术理论都具有非常特 殊且重要的意义。 本文的主要研究内容如下: 首先,本文研究了分类数据关联规则挖掘的特殊情形——多层关联规则挖掘 问题,这是基于分类数据扩展性研究的基础。本文根据挖掘遍历策略的不同,提 出了两种新颖高效的多层关联规则挖掘方法TD.CBP.MLARM和 BU.CBP.MLARM。其基本思想在于,首先利用分类数据所属领域的先验知识对 通用的相关性度量函数进行有效修正,使之更加适合于分类数据项之间相关性的 度量;然后基于修正后的相关性函数对分类数据各层次上的项依次进行聚类,根 据各层项的层次聚类结果对事务数据库进行约简划分,从而缩小了事务数据库的 规模,节省了挖掘算法扫描事务数据库的I/O操作时间,达到了提高算法挖掘效 率的目的。 其次,本文针对多层关联规则挖掘的一般情形——概化关联规则挖掘问题进 行了研究。本文首先基于有候选项集方法的思想,提出了一种基于集合枚举树的 概化频繁项集宽度优先挖掘方法SET-BFS。该方法可以确保所有k.项集产生之 前,其所有的(k.1).子项集已经产生,进而可以确保Apriori性质在分类数据领域 的有效运用,实现对非频繁项集的高效剪枝,不仅避免了大量非频繁项集的计数 和判定操作,还减少项集扩展空间的规模,从而提升此类算法的执行效率。进而 结合最新的无候选项集方法的思想,提出了一种高效的概化关联规则挖掘方法 GEAOT.tax。该方法引入了一种新颖的扩展升序前缀树GEAOT,采用自上而下、 摘要 深度优先的遍历策略,结合双头表辅助结构以及合并、剪枝等一系列优化操作, 进一步减少了算法的遍历开销,从而提升了算法整体效率。 最后,本文将研究视角从静态分类数据进一步扩展至动态变化环境下,对概 化关联规则更新保持问题进行了研究,并提出了一种基于概化扩展自然序树的增 量挖掘方法GECT.IM。该方法只需扫描一次原始分类事务数据库,就可以将所 有交易中的叶子项及其概化项映射至一棵压缩格式的自然序前缀树GECT,并通 过引入更新头表来实现只对GECT中更新项集计数,然后结合相关性质及运算 就能发现大部分更新后的频繁项集,而只对部分原来非频繁的项集才需重新遍历 初始GECT树来得到,从而有效提升了挖掘效率。针对GECT规模较大以及 GECT.IM算法在部分情况下仍需遍历初始GECT树的局限性,本文进一步提出 了一种基于准频繁概化扩展自然序树的增量挖掘方法PGECT.IM。该方法通过准 最小支持度阈值的引入,结合对数据库变化范围的判定,只利用符合准最小支持 度的项集来构建PGECT,不仅可以减小树的规模,还可以有效避免GECT.IM方 法在部分情况下仍需要遍历初始GECT树的局限性,进一步提升了增量挖掘的 性能。 关键词:关联规则,多层关联规则,概化关联规则,分类数据,相关性函数,集 合枚举树,前缀树,增量挖掘 中图分类号:TP311 Abs七ract Abstract of in are Withthewide becoming

文档评论(0)

whl005 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档