- 1、本文档共66页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
致谢
致谢
值此论文完成之际,谨向三年来关心和帮助过我的人表示衷心的感谢。
感谢我的导师褚健教授,褚老师渊博的学识、严谨的治学态度一直是我学
习的榜样,同时也感谢褚老师为我们创造了便利的实验条件和宽松的研究环境。
感谢我的导师苏宏业教授,苏老师开阔的研究视野、精益求精的科研精神深深
影响着我,苏老师的谆谆教诲使我受益匪浅.感谢徐巍华老师在学习和生活上
给予我的指导和帮助,徐老师对工作认真负责的态度和对学生真诚的关怀给我
留下了深刻的印象。
感谢浙江大学智能系统与控制研究所数据挖掘研究小组的其他成员:渠瑜
师兄、张均峰师兄、郭立超师兄、王继丽师姐、胡锴师兄、王晓华、陈鹏。定
期的小组讨论也开阔了我的思维,使我走出科研的困境,取得学习上的进步.
感谢我的父母和家人,是你们的支持和关心伴我度过求学道路上的艰难时光.
王春玉
2011年2月
于求是园
摘要
摘 要
近年来,非平衡数据集分类问题一直是数据挖掘和机器学习领域的研究难
点.所谓非平衡数据集分类问题,是指训练样本数量存在类分布不平衡的模式
分类问题.在许多实际问题中,数据集是非平衡的,即某些类的样本量比其他
类少得多。当使用传统的机器学习算法来解决该问题时,往往会出现少数类的
预测准确率大大低于多数类的情况,从而导致分类器性能大幅度下降.本论文
针对非平衡数据集分类困难的问题,尤其是少数类识别困难问题,提出一种新
的算法一一AdaBooSt.SVM—OBMS,该算法结合集成算法和采用错分样本点生
成新样本点的过抽样技术.同时,在研究电信数据集特点和非平衡数据集分类
方法的基础上,针对电信数据挖掘的常用主题——欠费挖掘,对电信欠费预测
做了深入的研究和探讨.论文的主要研究工作如下:
1.针对非平衡数据集分类问题,本文提出一种新的算法
本的过抽样技术.在新算法中,以支持向量机为元分类器,每次boosting迭代
中标记出错分的样本点,然后在错分样本点与其近邻样本间随机产生一定数量
与错分样本点同一类别的新样本点.新产生样本点加入原训练集中重新训练学
进行了实验,实验结果表明了AdaBoost-SVM.OBMS算法在非平衡数据集分类
中的对少数类和多数类具有较高的预测准确率。
2.针对电信欠费数据挖掘本身的特点,结合电信行业专家经验,提出一种
处理电信欠费数据集的分类策略,并应用于实际电信数据,取得了一些有价值
的结果。
关键词:电信、数据挖掘、电信欠费、非平衡数据集、海量数据、支持向量机,
提升
Absttact
Abstract
distributionisa
Inrecent ofdatawithimbalancedclass
years,classification
sets
indata andmachine imbalanceddata
difficulttask mining learning.The
classdistribution.
ofdatawithimbalanced
ist
文档评论(0)