- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
重庆大学硕士学位论文 中文摘要
摘 要
在实际生活中总会遇到大量的不平衡数据问题,但是这类数据集的分类效果
往往不太理想。如何能够提高不平衡数据集的分类效果是学者们的研究热门。本
文对不平衡数据集的分类算法做了研究,
首先,介绍了几种单分类器和几种集成学习分类器的算法思想及流程。
其次,介绍并分析了 SMOTE 算法的优缺点。作为经典的过采样算法,SMOTE
算法能有效地避免数据过拟合问题,从而提高模型的泛化能力。但 SMOTE 算法没
有考虑到数据的分布情况以及多数类对少数类的影响,而且也没有考虑到样本点
的特异性。现有的一些改进算法从某些方面对 SMOTE 算法进行了改进,一定程度
上提高了分类效率,但也存在一些其它问题。本文详细分析了 SMOTE 及其改进算
法的优劣,为了进一步提高不平衡数据集的分类效果,提出了一种基于欧氏距离
比的 DC-SMOTE 算法。DC-SMOTE 算法不仅能避免过拟合问题,而且着重考虑
了数据样本点的分布情况,针对处在不同位置的样本点赋予不同的系数取值,从
而特异性地进行插值操作。相比于 SMOTE 算法,本算法提高了合成的新样本点的
质量,在一定程度上改善了 SMOTE 算法的劣势。
最后,本文选用了 UCI 的 5 个不平衡数据集和公司项目的经纪人模型真实数
据集进行了实验,选用了 4 种经典单分类器算法和 4 种经典集成学习算法对
SMOTE、Borderline-SMOTE、Kmeans-SMOTE 以及DC-SMOTE 算法进行对比实
验,分别从 F 值、G-mean 、AUC 值等指标进行分析。实验证明本文提出的
DC-SMOTE 算法能有效地提高分类算法模型的分类能力,具有有效性。同时,将
算法应用于公司经纪人模型项目,分类也达到了不错的效果,并最终在公司成功
上线,这也证明了本文的研究具有较高的研究意义和实用价值。
关键词:不平衡数据;分类算法;SMOTE 算法;经纪人模型
I
重庆大学硕士学位论文 英文摘要
Abstract
In our daily lives, there are always a lot of unbalanced data problems, but the
classification effect of such data sets is often not ideal. How to improve the
classification effect of unbalanced data sets is a popular research topic for scholars. In
this paper, the classification algorithm of unbalanced data sets is studied.
Firstly, the algorithm ideas and processes of several single classifiers and several
integrated learning classifiers are introduced.
Secondly, the advantages and disadvantages of the SMOTE algorithm are
introduced and analyzed. As a classic oversampling algorithm, the SMOTE algorithm
can effectively avoid data over-fitting problems,
您可能关注的文档
- Gd元素对ZM61镁合金腐蚀性能的影响机理研究.pdf
- Inconel 718高温合金瞬时液相连接及焊后热处理工艺与机理研究.pdf
- K418镍基合金涡轮盘与42CrMo轴惯性摩擦焊研究.pdf
- LC型逆变器稳定性分析与输出电压质量提高策略的研究.pdf
- LKAS人机共享横向控制权分配研究及实验平台设计.pdf
- LSTM神经网络模型权值及门控参数量化方法研究.pdf
- Mg-6Zn-3Al-xSn与Mg-6Al-3Sn-yZn合金的组织与性能.pdf
- Mg-Er合金组织与性能研究.pdf
- Mg-Gd-Y-Zr耐热镁合金组织与性能研究.pdf
- Mg-Li-Zn-Mn合金组织与性能研究.pdf
- 2025中国企业级AI应用行业研究报告.pdf
- 石林旅游景区文旅项目2024年度活动策划方案.pdf
- 2025年度民主生活会对照检查材料“带头坚决扛起管党治党责任”方面问题起草指南.docx
- 2025年度民主生活会第五方面“在带头坚决扛起管党治党责任方面”对照查摆问题(100名各级班子成员42页).docx
- 2026年公安警示教育大会主持词.docx
- 市委宣传部党组领导班子2025年度民主生活会对照检查材料.docx
- 县自然资源局副局长2025年度民主生活会个人对照检查材料(五个带头).docx
- 县民政局副局长2025年度民主生活会个人对照检查材料(五个带头).docx
- 市教育局领导班子2025年度民主生活会对照检视材料.docx
- 公司党总支书记2025年度抓基层党建工作述职报告.docx
最近下载
- 北京市公安局丰台分局2026年度勤务辅警招聘备考题库及一套答案详解.docx VIP
- 生态修复工程施工方案与技术措施.pdf
- 北京市丰台区2024-2025学年七年级上学期语文期末考试试卷(含答案).docx VIP
- 县级医院2025年服务质量提升工作计划.docx VIP
- 2025年威海市检察机关公开招聘聘用制书记员(31人)考试冲刺题库及答案解析.docx VIP
- 《特种设备安全》课程教学大纲.docx VIP
- 2023年安全生产(消防)管理绩效考核办法.pdf VIP
- 万人计划科技创业领军人才申报书-浙江科技厅.DOC VIP
- 农贸市场运营管理方案投标文件方案.docx VIP
- 2025钢质自由锻件机械加工余量与公差.docx
原创力文档


文档评论(0)