一种不均衡数据集的决策树改进算法.docVIP

下载本文档

6
0
约3.47千字
约 7页
2016-11-23 发布于北京
举报
版权申诉

一种不均衡数据集的决策树改进算法.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种不均衡数据集的决策树改进算法.doc

一种不均衡数据集的决策树改进算法　　一、MCMO-Boost算法　　设定训练样本Ai、类标号Bi，训练集P={（Ai，Bi）|Bi∈{true，false}}，i=1， 2，…，total。如Bi=true则为少数类，如Bi=false则为多数类，设x为少数类样本的个数，y为多数类样本的个数，且xy。　　当Bi=true，则初始化每条记录分布D1（i）=1/x，当Bi=false时，D1（i）=1/y，级联次数为T。　　For t=1 to T。以下是计算过程：　　（1）根据Dt从P中选取若干抽样，装入集合SET。　　（2）若T=1，则使用SET中的原始数据集进行计算。　　（3）若T≥2，鉴于SET中的任何样本数据A’，若B’=true，而ht-1=false，则将A’装入集合X——通过集合。　　（4）对于X中的任何样本A”，在P训练集中找到同类近邻k，任选y个近邻，在A”与y个紧邻的级联上形成新的合成数据：synth=A”+rj×difj，j=1 to n。其中，rj为0～1之间的随机数；difj是x”与第j个近邻的矢量差。因此少数类样本扩充了n倍。　　（5）把扩充的少数类样本装入SET集合，再用更新的数据集训练决策树，得到假设ht。　　（6）利用ht对P分类，按下式更新分布：　　，i=1 tototal 　　最终得到的分类器：　　H（Xnew）=sign（）　　其中，前4步是对不均衡数据进行抽样处理的过程，基本思路是将少数类采用的抽样种子方法来扩张以达到平均的目的。　　二、分级结构分类器　　因为单级的分类器很难满足分类的覆盖率与准确率，因此在这里使用了分级结构思想。　　分级机构分类器由多个不同层次子分类器构成，分类过程呈一条食物链状，只有上面一级分类器判断为离网样本，才进到下面一级分类器继续分类，不然被认作非离网的样本直接舍弃，最终的离网判断结果是能够通过每一层次分类器且被每一个子分类器判为离网样本。　　如果弱分类器分类完毕，依据它在训练集上的分类结果对所有的样本权值进行调整，使下一次分类的弱分类器得以更注意那些被判断为错误的样本，最终降低整个体系离网样本的错误率FRR，每一层次的分类器都要求越低的FRR越好。在级联结构中，上一层次的分类器结构比较简单，使用的特征数也比较少，且具有很高的检测率，FRR值也很低，可以对和目标差异较大的非离网样本进行过滤；但由于下一层次的分类器对正负样本较难区分，而且使用更复杂的结构，因此对FRR的要求也适当降低。　　级联结构分类器若使用原始数据集训练比较困难，由于原始数据总数据集中的流失样本占较少比例（一般为7%以下）。如此比例的数据样本无法形成较好的简单分类模型，使得算法刚开始就有了比较高的FRR，最终离网趋势模型也无法到达预定的目标。　　三、M-AdaBoost级联决策树　　M-AdaBoost级联决策树——一种改进的AdaBoost级联决策树，它使用不均衡数据集获得比传统级联决策树算法更好的效率，避免了单一决策树在不均衡数据集上训练的同化能力低、倾向多类记录、模型不确定等问题。以下是MCMO级联决策树算法过程：　　（1）给定训练集P={（Ai，Bi）|Bi∈{true， false}}，i=1 tototal。如Bi=true则为少数类，如Bi=false则为多数类，x为少数样本的个数，y为多数类样本个数，且xy。　　（2）训练集SET中初始化记录的分布D1，Bi=true时，D1（i）=1/（x），Bi=false时，D1（i）=1/（y）。　　（3）若r=x/（x+y）∈（rmin，rmax），则继续下一步骤，若rrmax，则转到步骤（6）。　　（4）根据Dt分布从P中抽样的数据装入集合SET，创建若干单特征分类器并选择最适合的一个样本，用弱分类器验证集合P中的样本x，若判断失误，则装入“通过集合”M。　　（5）对于通过集合中的任一数据样本x”，在S中找出同类近邻k，并选择任意y∈（1，k）个，依据synth=x”+rj×difj，j=1 to n对扩充x”样本记录，其中，rj是0～1之间的随机数；difj是x”与第j个近邻的矢量差。因此少数类样本扩充了n倍并且合并装入到SET中。　　（6）征对SET中的数据，采用AdaBoost建立多层次级联分类器。　　四、实验及分析　　在实际应用中建立良好的客户离网趋势模型比较困难，离网趋势的变化程度受到各种主、客观因素的刺激。研究此类问题采用的数据挖掘方式从传统的单层次级别算法，发展到多层次多级别算法的组合，虽然多层次多级别算法设计了构建挖掘策略模型、验证测试数据的准确性，但在现实运用中总是无法解决数据的不均衡难题、很难生产出方便客