SMOTE算法的改进与应用.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
重庆大学硕士学位论文 中文摘要 摘 要 在实际生活中总会遇到大量的不平衡数据问题,但是这类数据集的分类效果 往往不太理想。如何能够提高不平衡数据集的分类效果是学者们的研究热门。本 文对不平衡数据集的分类算法做了研究, 首先,介绍了几种单分类器和几种集成学习分类器的算法思想及流程。 其次,介绍并分析了 SMOTE 算法的优缺点。作为经典的过采样算法,SMOTE 算法能有效地避免数据过拟合问题,从而提高模型的泛化能力。但 SMOTE 算法没 有考虑到数据的分布情况以及多数类对少数类的影响,而且也没有考虑到样本点 的特异性。现有的一些改进算法从某些方面对 SMOTE 算法进行了改进,一定程度 上提高了分类效率,但也存在一些其它问题。本文详细分析了 SMOTE 及其改进算 法的优劣,为了进一步提高不平衡数据集的分类效果,提出了一种基于欧氏距离 比的 DC-SMOTE 算法。DC-SMOTE 算法不仅能避免过拟合问题,而且着重考虑 了数据样本点的分布情况,针对处在不同位置的样本点赋予不同的系数取值,从 而特异性地进行插值操作。相比于 SMOTE 算法,本算法提高了合成的新样本点的 质量,在一定程度上改善了 SMOTE 算法的劣势。 最后,本文选用了 UCI 的 5 个不平衡数据集和公司项目的经纪人模型真实数 据集进行了实验,选用了 4 种经典单分类器算法和 4 种经典集成学习算法对 SMOTE、Borderline-SMOTE、Kmeans-SMOTE 以及DC-SMOTE 算法进行对比实 验,分别从 F 值、G-mean 、AUC 值等指标进行分析。实验证明本文提出的 DC-SMOTE 算法能有效地提高分类算法模型的分类能力,具有有效性。同时,将 算法应用于公司经纪人模型项目,分类也达到了不错的效果,并最终在公司成功 上线,这也证明了本文的研究具有较高的研究意义和实用价值。 关键词:不平衡数据;分类算法;SMOTE 算法;经纪人模型 I 重庆大学硕士学位论文 英文摘要 Abstract In our daily lives, there are always a lot of unbalanced data problems, but the classification effect of such data sets is often not ideal. How to improve the classification effect of unbalanced data sets is a popular research topic for scholars. In this paper, the classification algorithm of unbalanced data sets is studied. Firstly, the algorithm ideas and processes of several single classifiers and several integrated learning classifiers are introduced. Secondly, the advantages and disadvantages of the SMOTE algorithm are introduced and analyzed. As a classic oversampling algorithm, the SMOTE algorithm can effectively avoid data over-fitting problems,

文档评论(0)

136****6583 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档