统计学中对不平衡数据的处理方法分析.docxVIP

统计学中对不平衡数据的处理方法分析.docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目录 TOC \o 1-3 \h \u 1引言 1 1.1研究的背景和意义 1 1.1.1研究背景 1 1.1.2研究意义 1 1.2国内外研究现状 1 1.2.1国内研究状况 1 1.2.2国外研究状况 2 1.2.3研究发展趋势 2 1.3研究思路及方法 3 1.3.1研究思路 3 1.3.2研究方法 3 2不平衡数据的概述 4 2.1相关概念界定 4 2.1.1不平衡数据 4 2.1.2数据挖掘 4 2.1.3统计学 4 2.2统计学与数据挖掘的关系 4 3不平衡数据处理方法发展现状 5 3.1不平衡数据处理方法数据层面的发展现状 5 3.2不平衡数据处理方法算法层面的发展现状 7 3.3不平衡数据处理方法评价指标层面的发展现状 12 4不平衡数据处理方法中存在的问题 16 4.1数据层面 16 4.2算法层面 16 4.3评价指标层面 16 5对策建议 17 5.1训练集重构 17 5.2分类方法的改进 17 5.3优化评估方法 17 6结论 19 参考文献 20 致谢 21 统计学中对不平衡数据的处理方法分析 摘要:统计学中的不平衡数据也称为数据偏斜,是指数据集中的某一类或多类样本数量远大于其他类的样本数量,出现样本类别极不均衡的状况,严重影响模型分类。模型分类准确度会因为不平衡数据而导致无法达到预期效果。机器学习过程中往往不能有效地识别不平衡数据中的小类样本,容易导致准确度降低甚至失效,因此,解决不平衡分类问题是机器学习的研究重点之一。本文对不平衡数据的分类方法进行了研究,不仅从数据方面和算法方面的方法经行分析,还将从评价指标方面进行分析,分别对目前存在的各种解决不平衡数据分类问题的方法进行介绍及比较。 关键词:不平衡数据;数据集;数据偏斜;分类方法 Analysis of the treatment of unbalanced data in Statistics Absrtact: Unbalanced data in statistics, also known as data skew, refers to the fact that the number of samples of one or more categories in the data set is far larger than that of other categories, resulting in extremely unbalanced sample categories, which seriously affects the model classification. The accuracy of model classification can not achieve the expected results because of unbalanced data. In the process of machine learning, it is often unable to effectively identify the small samples in the unbalanced data, which is easy to reduce the accuracy or even failure. Therefore, to solve the problem of unbalanced classification is one of the research focuses of machine learning. In this paper, the classification methods of unbalanced data are studied. Not only the methods of data and algorithm are analyzed, but also the evaluation indexes are analyzed. The existing methods to solve the problem of unbalanced data classification are introduced and compared. Key words: Unbalanced data;Date set;Date skew;classification method 1引言 1.1研究的背景和意义 1.1.1研究背景 怎么有效处理不平衡数据集是研究工作的重点,在平常生活中,数据类别不平衡十分常见。数据的不平衡问题一般指数据中某些类别

文档评论(0)

狼人三少 + 关注
实名认证
文档贡献者

专注论文方向,提供优质资源

1亿VIP精品文档

相关文档