李东起重采样方法在高度不平衡数据分类中的应用研究.docxVIP

下载本文档

11
0
约1.82万字
约 38页
2021-04-03 发布于山西
举报
版权申诉

李东起重采样方法在高度不平衡数据分类中的应用研究.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE PAGE IV 重采样方法在高度不平衡数据分类中的应用研究摘要随着信息技术的飞速发展，医疗、银行、互联网等领域数据的数据信息会被广泛的收集，在这其中不平衡数据普遍存在。不平衡数据学习现在也是机器学习领域的研究热点之一。在机器学习传统的分类算法中，通常是在数据集的类别样本数均匀分布和错分代价相等的情况下假设的。然而在实际的数据大多数都存在不平衡的特点，这就导致传统分类方法在为了保证整体分类准确性上偏向于多数类而忽略了少数类的数据，最终数据没办法得到准确有效的分类，这种情况在不平衡比越大的数据集中所带来较差的分类效果越明显。然而这些少数类的样本通常都存在很高的错分代价，所以不平衡数据集分类是我们所研究的重点。对于不平衡数据分类的研究分为三个层面，分别为数据预处理层面、特征层面和分类算法层面。本文针对高度不平衡数据集所存在不平衡分类问题，从数据预处理的角度提出切实可行的的重采样方法，并且通过一系列的实验证明这些方法是合理可行的，对高度不平衡数据的分类问题分析，针对存在的问题本文主要做了下列两种不同的重采样方法的研究： 1）针对少数类样本的数据特征表达不明显进而对分类器的性能产生影响，本文基于在数据预处理层面上对高度不平衡数据集采用SMOTE算法以及对针对使用SMOTE算法存在较高的时间复杂度，而且很有可能会加大对噪声的传播从而影响分类器的性能，本文采用了Borderline_SMOTE，并且对比了ADASYN的过采样方法在分别在Bagging、AdaBoost、C4.5、KNN分类算法下研究分类效果。 2）针对在不平衡数据集中多数类样本远大于少数类样本数量，采取基于在数据预处理层面上对数据集采用方法，但此方法很有可能会在删除多数类样本时把多数类中的重要信息删除，造成分类信息的缺失，进而影响分类效果。进而本文又采用TL、NCL的欠采样方法在分别在Bagging、AdaBoost、C4.5、KNN分类器下研究分类效果。根据实验对所得数据进行数据信息分析统计，得出SMTOTE方法在Bagging分类算法下对不平衡数据集处理效果最好，结果为0.803464823。关键词：高度不平衡数据；重采样方法；不平衡分类；机器学习 Abstract With the rapid development of information technology, data information of medical, banking, Internet and other fields of data will be widely collected, in which imbalance data is widespread. Imbalanced data learning is also one of the research hotspots in the field of machine learning. In traditional classification algorithms for machine learning, it is usually assumed that the number of class samples in the data set is evenly distributed and the cost of misclassification is equal. However, most of the actual data have unbalanced characteristics, which leads to the traditional classification method in order to ensure the overall classification accuracy is biased to the majority class and ignore the data of the minority class. The final data cannot be accurately and effectively classified. This situation is more obvious in the poor classification effect caused by the larger imbalance ratio. However, these minority types of samples often have a high misclassification cost, so imbalanced data set classification is the focus of our research.