非平衡数据集分类方法研究与其在电信行业中地应用.pdf

下载文档 降价啦

1
0
约6.74万字
约 66页
2019-06-25 发布于安徽
举报
版权申诉
保障服务

非平衡数据集分类方法研究与其在电信行业中地应用.pdf

1、本文档共66页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

致谢致谢值此论文完成之际，谨向三年来关心和帮助过我的人表示衷心的感谢。感谢我的导师褚健教授，褚老师渊博的学识、严谨的治学态度一直是我学习的榜样，同时也感谢褚老师为我们创造了便利的实验条件和宽松的研究环境。感谢我的导师苏宏业教授，苏老师开阔的研究视野、精益求精的科研精神深深影响着我，苏老师的谆谆教诲使我受益匪浅．感谢徐巍华老师在学习和生活上给予我的指导和帮助，徐老师对工作认真负责的态度和对学生真诚的关怀给我留下了深刻的印象。感谢浙江大学智能系统与控制研究所数据挖掘研究小组的其他成员：渠瑜师兄、张均峰师兄、郭立超师兄、王继丽师姐、胡锴师兄、王晓华、陈鹏。定期的小组讨论也开阔了我的思维，使我走出科研的困境，取得学习上的进步．感谢我的父母和家人，是你们的支持和关心伴我度过求学道路上的艰难时光．王春玉 2011年2月于求是园摘要摘要近年来，非平衡数据集分类问题一直是数据挖掘和机器学习领域的研究难点．所谓非平衡数据集分类问题，是指训练样本数量存在类分布不平衡的模式分类问题．在许多实际问题中，数据集是非平衡的，即某些类的样本量比其他类少得多。当使用传统的机器学习算法来解决该问题时，往往会出现少数类的预测准确率大大低于多数类的情况，从而导致分类器性能大幅度下降．本论文针对非平衡数据集分类困难的问题，尤其是少数类识别困难问题，提出一种新的算法一一AdaBooSt．SVM—OBMS，该算法结合集成算法和采用错分样本点生成新样本点的过抽样技术．同时，在研究电信数据集特点和非平衡数据集分类方法的基础上，针对电信数据挖掘的常用主题——欠费挖掘，对电信欠费预测做了深入的研究和探讨．论文的主要研究工作如下： 1．针对非平衡数据集分类问题，本文提出一种新的算法本的过抽样技术．在新算法中，以支持向量机为元分类器，每次boosting迭代中标记出错分的样本点，然后在错分样本点与其近邻样本间随机产生一定数量与错分样本点同一类别的新样本点．新产生样本点加入原训练集中重新训练学进行了实验，实验结果表明了AdaBoost-SVM．OBMS算法在非平衡数据集分类中的对少数类和多数类具有较高的预测准确率。 2．针对电信欠费数据挖掘本身的特点，结合电信行业专家经验，提出一种处理电信欠费数据集的分类策略，并应用于实际电信数据，取得了一些有价值的结果。关键词：电信、数据挖掘、电信欠费、非平衡数据集、海量数据、支持向量机，提升 Absttact Abstract distributionisa Inrecent ofdatawithimbalancedclass years，classification sets indata andmachine imbalanceddata difficulttask mining learning．The classdistribution． ofdatawithimbalanced ist