分类关联规则归纳算法及应用研究-计算机应用技术专业论文.docxVIP

下载本文档

12
0
约16.58万字
约 151页
2019-01-15 发布于上海
举报
版权申诉

分类关联规则归纳算法及应用研究-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分类关联规则归纳算法及应用研究-计算机应用技术专业论文

摘要摘要摘要摘要随着社会信息化程度的提高，数据量呈指数增长。从大量数据中挖掘有价值的知识在当今信息时代具有重要意义。关联规则挖掘是数据挖掘领域中的重要课题之一。特别是分类关联规则既能用于概念描述又能用于分类预测与决策，在数据挖掘中发挥重要作用。目前分类关联规则挖掘技术在学术界与产业界受到广泛关注。自1998年出现第一个基于关联的分类算法(cBA)以来，关联分类算法的设计及应用研究一直非常活跃。目前，在关联分类问题上存在的共识是：关联分类的准确度总体上显著地高于传统的决策树分类，但关联分类存在的主要问题是产生太多的关联规则，导致计算速度慢、内存开销大、分类模型难以理解。本文研究分析了现有的分类关联规则归纳算法，给出了关联分类的有关定义及形式化描述，提出基于数据挖掘标准的分类规则质量评价新函数，首次提出挖掘知识要点的新思想，创立了基于原子关联规则的分类新技术 CAAR(C1assification based on Atomic Association Rules)，从根本上解决了关联分类执行效率低、内存开销大、分类模型较复杂的问题。将c从R分类新技术应用于有监督的图像内容分类学习和大规模数据机器学习取得了很好的效果。本文的创新点主要表现在以下五个方面： 1)首次提出置信度主导的、基于置信度和支持度加权和的分类规则质量评价函数。目前，在机器学习领域内，广泛采用的分类规则质量评价函数是基于混淆矩阵计算的灵敏度(se)和选择性(sp)的乘积。这种传统方法被称为评价分类规则质量的“黄金标准”。然而，从数据挖掘的角度分析灵敏度和选择性后，我们发现传统的方法不及我们提出的基于规则置信度和支持度加权和的新方法。为了在较大的分类关联规则搜索空间上验证我们提出的新函数，采用遗传算法进行了实验。结果表明基于数据挖掘的新函数显著地优于传统的分类规则质量评价函数。 2)首次提出挖掘知识要点的新思想。采用原子型分类关联规则导向的知识要点挖掘技术能快速地发现不完全的、非精确的描述性分类知识。知识要点包括通过一次扫描数据集得到的精确原子型分类关联规则和通过组合计算得到的不完全的、非精确的复合型分类关联规则。算法能计算复合型分类关联规则的支持度和置信度的边界值。对于一个复合型分类关联规则，如果规则的支持度和置信度的下界都分别超过支持度闽值和置信度阈值，则称该规则的存在性是确定的；如果规则的支持度和置信度各自的上界与下界之差小于一个给定的常量，则认为规则的度量参数是确定的。因此复合型分类关联规则可分为三种类型： (1)确定型：华南理工大学博士学位论文指规则的存在性和度量参数是确定的；(2)半确定型：指规则的存在性是确定的，华南理工大学博士学位论文指规则的存在性和度量参数是确定的；(2)半确定型：指规则的存在性是确定的，但度量参数是不确定的；(3)不确定型：指规则的存在性是不确定的。可以使用一个概率来度量不确定的复合型分类关联规则的存在性。该方法支持用户兴趣导向的探索型知识发现服务，能快速有效地发现描述性的知识要点；能利用知识要点进行部分分类，结合算法设计策略，能进一步实现完全的、精确的分类。 3)创立了原子关联规则分类算法cAAR。与知识要点发现算法不同的是：cAAR 算法仅挖掘原子型分类关联规则用于分类器构建，避免了一般关联分类遇到的频繁项集“组合爆炸效应”。c从R算法采用“基于原子型分类关联规则的突出特征” 进行部分分类，结合“先易后难”策略从根本上解决了关联分类效率低的问题。算法分析和大量的实验结果表明cAAR算法在执行速度上显著地优于关联分类基准算法CBA。而且C从R算法中规则的原予性有效地减少了过学习现象，对数据集中属性值遗失较多的实际应用场合，C从R算法表现出好的鲁棒性。 4)首次提出只利用具有最高置信度和接近最高置信度的、强的分类关联规则用于分类器构建，确保了C从R算法的分类预测准确性。10一折交叉验证试验结果表明：cAAR算法显著地优于决策树算法和cBA算法。 5)首次提出自适应置信度阈值，使原子关联规则分类算法具有很好的自适应能力；提出的相对支持度阈值能确保C从R算法在数据集中类分布严重不均匀时对少数类实例分类预测的准确性。关键词：数据挖掘：机器学习；分类关联规则；分类；遗传算法；知识要点原子关联规则分类法；自适应置信度阈值；相对支持度闽值；大规模数据挖掘。 Il ABSTRACTWith ABSTRACT With the rapid deVelopment of social int0rmationization，the amount of data increases exponentially．Extracting useful knowled