非平衡数据集分类方法研究与其在电信行业中地应用.pdf

非平衡数据集分类方法研究与其在电信行业中地应用.pdf

  1. 1、本文档共66页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
致谢 致谢 值此论文完成之际,谨向三年来关心和帮助过我的人表示衷心的感谢。 感谢我的导师褚健教授,褚老师渊博的学识、严谨的治学态度一直是我学 习的榜样,同时也感谢褚老师为我们创造了便利的实验条件和宽松的研究环境。 感谢我的导师苏宏业教授,苏老师开阔的研究视野、精益求精的科研精神深深 影响着我,苏老师的谆谆教诲使我受益匪浅.感谢徐巍华老师在学习和生活上 给予我的指导和帮助,徐老师对工作认真负责的态度和对学生真诚的关怀给我 留下了深刻的印象。 感谢浙江大学智能系统与控制研究所数据挖掘研究小组的其他成员:渠瑜 师兄、张均峰师兄、郭立超师兄、王继丽师姐、胡锴师兄、王晓华、陈鹏。定 期的小组讨论也开阔了我的思维,使我走出科研的困境,取得学习上的进步. 感谢我的父母和家人,是你们的支持和关心伴我度过求学道路上的艰难时光. 王春玉 2011年2月 于求是园 摘要 摘 要 近年来,非平衡数据集分类问题一直是数据挖掘和机器学习领域的研究难 点.所谓非平衡数据集分类问题,是指训练样本数量存在类分布不平衡的模式 分类问题.在许多实际问题中,数据集是非平衡的,即某些类的样本量比其他 类少得多。当使用传统的机器学习算法来解决该问题时,往往会出现少数类的 预测准确率大大低于多数类的情况,从而导致分类器性能大幅度下降.本论文 针对非平衡数据集分类困难的问题,尤其是少数类识别困难问题,提出一种新 的算法一一AdaBooSt.SVM—OBMS,该算法结合集成算法和采用错分样本点生 成新样本点的过抽样技术.同时,在研究电信数据集特点和非平衡数据集分类 方法的基础上,针对电信数据挖掘的常用主题——欠费挖掘,对电信欠费预测 做了深入的研究和探讨.论文的主要研究工作如下: 1.针对非平衡数据集分类问题,本文提出一种新的算法 本的过抽样技术.在新算法中,以支持向量机为元分类器,每次boosting迭代 中标记出错分的样本点,然后在错分样本点与其近邻样本间随机产生一定数量 与错分样本点同一类别的新样本点.新产生样本点加入原训练集中重新训练学 进行了实验,实验结果表明了AdaBoost-SVM.OBMS算法在非平衡数据集分类 中的对少数类和多数类具有较高的预测准确率。 2.针对电信欠费数据挖掘本身的特点,结合电信行业专家经验,提出一种 处理电信欠费数据集的分类策略,并应用于实际电信数据,取得了一些有价值 的结果。 关键词:电信、数据挖掘、电信欠费、非平衡数据集、海量数据、支持向量机, 提升 Absttact Abstract distributionisa Inrecent ofdatawithimbalancedclass years,classification sets indata andmachine imbalanceddata difficulttask mining learning.The classdistribution. ofdatawithimbalanced ist

文档评论(0)

5566www + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6122115144000002

1亿VIP精品文档

相关文档