基于关联规则的不平衡数据分类方法研究-管理科学与工程专业论文.docxVIP

基于关联规则的不平衡数据分类方法研究-管理科学与工程专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关联规则的不平衡数据分类方法研究-管理科学与工程专业论文

研究生优秀毕业论文 大连理工大学硕士学位论文摘 大连理工大学硕士学位论文 摘 要 基于关联规则的分类方法即关联分类算法,是数据挖掘中非常重要的一个领域,因 解释说明性强,分类精度高等特点已经成为智能决策领域的研究热点。然而,不平衡数 据的出现给关联分类算法带来了挑战。在现实生活中存在很多不平衡数据集的应用,比 如入侵检测、森林火灾、信用欺诈等等。在这些应用中,人们关心的更多是对少数类的 分类精度,因为它的错误分类产生的代价是非常大的。因此,在实际应用中非常有必要 提高不平衡数据的分类精度,尤其是少数类的分类精度。 对于关联分类算法不能很好地处理不平衡数据,主要有两方面的原因:一是关联分 类使用的兴趣度量往往是基于“置信度.支持度架构的,对于不平衡数据集,无论将 其设置得或高或低,都会产生极少与少数类有关的规则或大量无用的规则。兴趣度量起 着至关重要的作用,它参与了规则的生成、剪枝和排序的过程,所以选择合适的兴趣度 量对提高关联分类算法处理不平衡数据的性能非常有必要。二是因为类分布不均的不平 衡数据会导致分类算法往往倾向于多数类,容易忽略少数类起到的作用,使得生成的规 则质量较差。针对以上原因本文主要从以下两个方面展开研究: (1)从兴趣度量角度着手,旨在找到合适的兴趣度量,从而提高关联分类方法处 理不平衡数据的性能。一方面本文提出了稳定强关联度量挖掘(Stable Strongly Correlated Measures Mining)方法找到在不平衡数据下普遍存在强关联关系的度量集,进而分析其 行为。另一方面,为了选出所有优秀的度量,本文基于分类精度实现了对所有兴趣度量 在不同类分布下的排序,经过筛选和行为分析得到了具有不同特点的两组相对优秀的度 量集。 (2)从数据和规则层次着手,旨在保证规则的质量,从而提高关联分类对不平衡 数据集的分类精度。首先在数据层次,本文提出关键值抽样(Key Value Sampling)法对原 始训练集进行抽样,通过增加与少数类相关性强的数据,减少与多数类相关性弱的数据 来达到数据类分布平衡。其次在规则层次,本文充分利用了关联分类产生的分类器能够 实现修改个别规则而不影响其它规则的特点,对初步生成的分类器进行了规则验证(Rule Validation),并对分类效果不好的规则进行修改,从而提高整个分类器的性能。 综上分析,本文分别从优秀度量的选择和算法的改进两方面对提高关联分类处理不 平衡数据精度展开研究,两方面的工作均能在一定程度上提高关联分类处理不平衡数据 的性能,并通过数值实验说明了实验结果的有效性和结论的可靠性。 关键词:关联分类:不平衡数据;兴趣度量选择;数据抽样;规则验证 万方数据 基于关联规则的不平衡数据分类方法研究The 基于关联规则的不平衡数据分类方法研究 The Study of Association Rule based Classification for lmbalanced Data Abstract The association rule based classification IS also called as Associative Classification(AC) method.It is a very important field in data mining research.Because of its advantages such as strong interpretation ability and high classification accuracy,AC has become a hot topic in the intelligent decision-making field.However,the emergence of imbalanced data has brought a challenge for AC method.Imbalanced data is that with imbalanced class distribution,which means that the records belonging to minority class is far less than those of maj ority class.In practice,there are a lot of applications with imbalanced data sets,such as intrusion detection,forest fire forecasting,credit fraud and SO on.In such applications,people care more about the

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档