关联分类的改进及多标签分类的特征选择研究.pdfVIP

关联分类的改进及多标签分类的特征选择研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文摘要 摘 要 分类问题是机器学习领域的一个重要研究方向,它通过学习数据发现其中的规律来 构建一个分类模型,该模型将用于预测待分类数据的类别。传统意义上的分类多指单标 签分类,即每个待分类样本被分类器指定唯一的标签作为类标签,根据数据集的特性, 又分为平衡数据和不平衡数据。准确率是评价算法性能好坏的一个重要指标,算法的准 确率越高代表算法的分类性能越好。关联分类算法是一种挖掘关联规则用于分类的算 法,具有规则多、分类精度较高的优点。然而关联分类算法虽然产生的规则多,但是其 中高质量的规则少,尤其是针对不平衡数据难以有效地提取高质量地小类规则,不能很 好的兼顾整体准确率和小类分类性能。此外,现实中许多数据往往具有不止一个标签, 这类数据被称为多标签数据,多标签数据的分类的就是要为每一个样本尽可能地标注出 所有与其相关的标签,但是多标签数据往往数据量庞大且维数众多,难以直接进行有效 进行学习。因此需要对数据集进行降维。传统的一些特征选择算法对部分标签没有保留 足够的重要特征,导致分类算法难以有效对特征选择后的数据集进行学习。本文针对以 上问题在算法层面上做了以下三个研究。 首先,针对传统的关联分类算法产生的冗余规则较多,而高质量规则占比较少,容 易导致待测实例被误判的问题,提出一种对训练集进行多次学习的关联分类算法IAMC。 IAMC 算法提取规则时,采用新度量关联度度量规则,并对训练集随机抽取实例多次学 习,提取了大量规则,同时有效地提高了生成的规则的质量。此外在提取关联规则后, 对仍然被错误分类的实例建立决策树重新提取规则,并将新提取的规则加入规则集中。 实验结果显示,本文算法IAMC在多个数据集上比经典的关联分类算法具有更高的分类 准确率。 其次,针对传统的关联分类算法难以有效提取高质量的小类规则,很难同时兼顾整 体准确率和小类分类性能的问题,提出一种使用类支持度挖掘关联规则的改进算法 —ACCS。该算法根据训练集中各类数量大小关系对每个类单独设定类支持度阈值,使 用类支持度阈值独立挖掘各类的关联规则。采用类支持度对置信度相同的规则排序,有 效地提高了小类规则的排序优先级。实验结果显示,ACCS算法不仅具有较高地整体分 类准确率,同时还具有很好的小类的分类性能。 I 闽南师范大学工学硕士学位论文 最后,针对传统的多标签数据特征选择算法没有考虑标签重要性,生成的特征子集 不够合理的问题,提出一种基于标签重要性的多标签特征选择算法MILR。该算法使用 互信息作为度量,将标签分为重要标签和非重要标签两组,然后使用信息增益度量各标 签与各特征间的关系,对每个重要标签特征都按照与该标签的相关性从大到小排序,选 取所有与该标签相关特征,对非重要标签只选取与超过一半非重要标签同时相关的的特 征,然后将所有选取的特征合在一起,再次去除其中的冗余特征,形成特征子集。实验 结果表明MILR 算法上能有效去除冗余特征,得到的特征子集在多个数据集上具有较好 的分类效果。 关键词:数据挖掘;多标签数据分类;关联分类;特征选择 II 目录 目 录 摘 要I AbstractIII 目 录V 1 1 第 章 绪 论 1.1课题研究背景及其意义1 1.2 关联分类算法研究现状及分析2 1.3 多标签数据分类及特征选择算法的研究现状4 1.4 论文主要研究内容与组织结构5 第2 章 基于多次学习和关联度的关联分类改进算法9 2.1经典关联分类算法的概述9 2.2 改进的关联分类算法IAMC9 2.2.1相关定义和标记10 2.2.2IAMC 分类算法的构建11 2.3 实验设计与结果15 2.4 本章小结20 3

文档评论(0)

136****6583 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档