学位论文—基于adaboost算法的银行客户数据分析dm课程.docVIP

下载本文档

4
0
约1.22万字
约 14页
2016-06-15 发布于辽宁
举报
版权申诉

学位论文—基于adaboost算法的银行客户数据分析dm课程.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

学位论文—基于adaboost算法的银行客户数据分析dm课程

山东财经大学金融数据挖掘课程论文题目：基于Adaboost算法的银行客户数据分析学院计算机科学与技术专业计算机科学与技术班级计算机科学与技术1201班学号 201218441442 姓名王健山东财经大学教务处制二Ｏ一四年十二月基于Adaboost算法的银行客户数据分析摘要分类是一种重要的数据分析形式，它提取刻画重要数据类的模型。这种模型称为分类器，预测分类的（离散的，无序的）类标号。在机器学习中，对分类器的分类进行准确性评估是一个基本问题。我们以此来确定分类器是否可以运用到实际的分类中。组合分类器是一个复合模型，由多个分类器组合而成。组合分类器基于投票返回类标号预测。组合分类器往往比它的成员分类器更准确。传统的学习模型假定数据类是良分布的。然而在现实世界的许多领域中，数据是类不平衡的，其中感兴趣的主类只有少量元祖。这称为类不平衡问题。我们还研究提高类不平衡数据分类准确率的技术。。我们将Adaboost算法应用于银行客户数据分析，分析结果表明，该算法运行可靠。本文最后对Adaboost算法的优缺点进行了总结。关键词：银行信息；AdaBoost；组合分类 1.引言 1.1组合分类方法简介袋装、提升和随机森林都是组合分类方法的列子。组合分类把k个学习得到的模型（或基分类器）M1，M2，······Mk组合在一起，旨在创建一个改建的复合分类模型M*。使用给定的数据集D创建k个训练集D1，D2,······，Dk，其中Di用于创建分类器Mi。给定一个待分类的新数据元祖，每个基分类器通过返回类预测投票。组合分类器基于基分类器的投票返回类预测。组合分类器往往比它的基分类器。列如，考虑一个进行多数表决的组合分类器。也就是说，给定一个待分类元祖X，它收集由基分类器返回的类标号预测，并输入占多数的类。基分类器可能出错时，但是仅当超过一半的基分类器出错时，组合分类器才会误分类X，当模型之间存在显著差异时，组合分类器产生更好的结果。也就说，理想的，基分类器之间几乎不相关。基分类器还应该优于随机预测。 1.2组合分类方法我们分类中用到很多经典分类算法如：SVM、logistic 等，我们很自然的想到一个方法，我们是否能够整合多个算法优势到解决某一个特定分类问题中去，答案是肯定的！通过聚合多个分类器的预测来提高分类的准确率。这种技术称为组合方法(ensemble method) 。组合方法由训练数据构建一组基分类器，然后通过对每个基分类器的预测进行权重控制来进行分类。考虑25个二元分类组合，每个分类误差是0.35 ，如果所有基分类器都是相互独立的（即误差是不相关的），则在超过一半的基分类器预测错误组合分类器才会作出错误预测。这种情况下的组合分类器的误差率：组合分类器性能优于单个分类器必须满足两个条件：（1）基分类器之间是相互独立的（2）基分类器应当好于随机猜测分类器。实践上很难保证基分类器之间完全独立，但是在基分类器轻微相关情况下，组合方法可以提高分类的准确率。 2.背景介绍 2.1 Boosting方法提出和发展在了解Adaboost方法之前，先了解一下Boosting方法回答一个是与否的问题，随机猜测可以获得50%的正确率。如果一种方法能获得比随机猜测稍微高一点的正确率，则就可以称该得到这个方法的过程为弱学习；如果一个方法可以显著提高猜测的正确率，则称获取该方法的过程为强学习。1994年，Kearns和Valiant证明，在Valiant的PAC（Probably? ApproximatelyCorrect）模型中，只要数据足够多，就可以将弱学习算法通过集成的方式提高到任意精度。实际上，1990年，SChapire就首先构造出一种多项式级的算法，将弱学习算法提升为强学习算法，就是最初的Boosting算法。Boosting意思为提升、加强，现在一般指将弱学习提升为强学习的一类算法。1993年，Drucker和Schapire首次以神经网络作为弱学习器，利用Boosting算法解决实际问题。前面指出，将弱学习算法通过集成的方式提高到任意精度，是Kearns和Valiant在1994年才证明的，虽然Boosting方法在1990年已经提出，但它的真正成熟，也是在1994年之后才开始的。1995年，Freund提出了一种效率更高的Boosting算法。 2.2 AdaBoost算法的提出 AdaBoost算法是Freund和Schapire根据在线分配算法提出的，他们详细分析了AdaBoost算法错误率的上界，以及为了使强分类器达到错误率，算法