随机森林实验报告.docVIP

下载本文档

243
0
约5.74千字
约 9页
2017-09-02 发布于湖北
举报
版权申诉

随机森林实验报告.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

随机森林实验报告

随机森林实验报告实验目的实现随机森林模型并测试。实验问题 Kaggle第二次作业Non-linear classification 算法分析与设计一．算法设计背景: 1.随机森林的原子分类器一般使用决策树，决策树又分为拟合树和分类树。这两者的区别在于代价估值函数的不同。 2.根据经验，用拟合树做分类的效果比分类树略好。 3.对于一个N分类问题,它总是可以被分解为N个2分类问题，这样分解的好处是其决策树更加方便构造，更加简单，且更加有利于用拟合树来构建分类树。对于每一个2分类问题，构造的树又叫CART树，它是一颗二叉树。 4.将N个2分类树的结果进行汇总即可以得到多分类的结果。 5.CART树构造：随机森林构造：算法思路：将一个N分类问题转化为N个二分类问题。转化方法是：构造N棵二叉拟合树，这里假设N为26，然后我们给N棵二叉树依次标号为1，2，3...26。1号树的结果对应于该条记录是不是属于第一类，是则输出1，否则输出0.2号树的结果对应于该条记录是不是属于第二类，是则1否则0，依此类推。这样，我们的26棵二叉树的结果就对应了26个下标。例如对于某条记录，这26个二叉树的结果按序号排列为{0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，...1,0}，那么这条记录的分类应该为25。要将一个26维的0，1序列变回一个索引，我们只需要找出这个序列中值最大的元素的索引，这个索引即是序列号。我们将上面的26棵分别对26个索引做是否判断的二分类树视为一个整体，在多线程的环境下，构造多个这样的整体，然后进行求和运算，最后取出每个结果序列中值最大的元素的下标作为分类值，那么久得到了我们想要的结果，随机森林完成。算法流程：读入训练集trainset,测试集testset 将训练集分割为输入trainIn,输出trainOut 这里假设类别数N为26，将trainOut[记录条数] 映射为 transformTrainOut[训练记录数][26] 4.初始化transformTestOut[测试记录数][26]全部为0 5.For i = 1 : ForestSize: //对训练集采样，这里要注意输入和输出一致 [sampleIn,transformSampleOut] = TakeSample(trainIn,transformTrainOut) For category = 1 : 26: //CartTree 数组存放着26棵二分类树 CartTree[category] = TrainCartTree(sampleIn,transformSampleOut); end //transformTestOut[测试记录数][26]为承接二分类树输出的容器 for i1 = 1 : testSetNum: For category = 1 : 26: transformTestOut[i1][category] += predict(CartTree[category],testset[i1]) end End End 遍历 transformTrainOut[]，将其每一行的最大值的下标作为该行记录的索引值。决策树及随机森林的配置 1.决策树在这里，我们每一次26分类是由26棵CART共同完成的，CART的cost function采用的是gini系数，CART的最大层数为7，分裂停止条件为当前节点GINI为0或者当前节点所在层数到达了7. 随机森林 a.随机森林每次循环的训练集采样为原训练集的0.5. b.对于森林中每一棵决策树每一次分割点的选取，对属性进行了打乱抽样，抽样数为25，即每次分割只在25个属性中寻找最合适的值。并且对于每个选取的属性，我们进行了行采样。即如果这个属性所拥有的属性值数大于30，我们选取其中30个作为分割候选，如果小于30，则全部纳入分割候选。代码详解训练集/测试集的读入 a.在dataDefine.h中定义了：训练集记录列数numparametres （ID（1） + 参数数量（617） + 输出（1） = 619）训练集记录条数transetNum 测试集记录条数testsetNum 分类类型数typesNum 而在main.cpp中，我们声明了全局变量 trainIn用于装载训练集输入，trainOut用于装载训练集的输出（这里trainOut是二维数组是出于模型如果泛化，那么输出值不一定只有一个的情况，在本次实验中并未派上