- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
随机森林实验报告
随机森林实验报告
实验目的
实现随机森林模型并测试。
实验问题
Kaggle第二次作业Non-linear classification
算法分析与设计
一.算法设计背景:
1.随机森林的原子分类器一般使用决策树,决策树又分为拟合树和分类树。这两者的区别在于代价估值函数的不同。
2.根据经验,用拟合树做分类的效果比分类树略好。
3.对于一个N分类问题,它总是可以被分解为N个2分类问题,这样分解的好处是其决策树更加方便构造,更加简单,且更加有利于用拟合树来构建分类树。对于每一个2分类问题,构造的树又叫CART树,它是一颗二叉树。
4.将N个2分类树的结果进行汇总即可以得到多分类的结果。
5.CART树构造:
随机森林构造:
算法思路:
将一个N分类问题转化为N个二分类问题。转化方法是:构造N棵二叉拟合树,这里假设N为26,然后我们给N棵二叉树依次标号为1,2,3...26。1号树的结果对应于该条记录是不是属于第一类,是则输出1,否则输出0.2号树的结果对应于该条记录是不是属于第二类,是则1否则0,依此类推。这样,我们的26棵二叉树的结果就对应了26个下标。
例如对于某条记录,这26个二叉树的结果按序号排列为{0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...1,0},那么这条记录的分类应该为25。要将一个26维的0,1序列变回
一个索引,我们只需要找出这个序列中值最大的元素的索引,这个索引即是序列号。
我们将上面的26棵分别对26个索引做是否判断的二分类树视为一个整体,在多线程的环境下,构造多个这样的整体,然后进行求和运算,最后取出每个结果序列中值最大的元素的下标作为分类值,那么久得到了我们想要的结果,随机森林完成。
算法流程:
读入训练集trainset,测试集testset
将训练集分割为输入trainIn,输出trainOut
这里假设类别数N为26,将trainOut[记录条数] 映射为 transformTrainOut[训练记录数][26]
4.初始化transformTestOut[测试记录数][26]全部为0
5.For i = 1 : ForestSize:
//对训练集采样,这里要注意输入和输出一致
[sampleIn,transformSampleOut] = TakeSample(trainIn,transformTrainOut)
For category = 1 : 26:
//CartTree 数组存放着26棵二分类树
CartTree[category] = TrainCartTree(sampleIn,transformSampleOut);
end
//transformTestOut[测试记录数][26]为承接二分类树输出的容器
for i1 = 1 : testSetNum:
For category = 1 : 26:
transformTestOut[i1][category] += predict(CartTree[category],testset[i1])
end
End
End
遍历 transformTrainOut[],将其每一行的最大值的下标作为该行记录的索引值。
决策树及随机森林的配置
1.决策树
在这里,我们每一次26分类是由26棵CART共同完成的,CART的cost function采用的是gini系数,CART的最大层数为7,分裂停止条件为当前节点GINI为0或者当前节点所在层数到达了7.
随机森林
a.随机森林每次循环的训练集采样为原训练集的0.5.
b.对于森林中每一棵决策树每一次分割点的选取,对属性进行了打乱抽样,抽样数为25,即每次分割只在25个属性中寻找最合适的值。并且对于每个选取的属性,我们进行了行采样。即如果这个属性所拥有的属性值数大于30,我们选取其中30个作为分割候选,如果小于30,则全部纳入分割候选。
代码详解
训练集/测试集的读入
a.在dataDefine.h中定义了:
训练集记录列数numparametres (ID(1) + 参数数量(617) + 输出(1) = 619)
训练集记录条数transetNum
测试集记录条数testsetNum
分类类型数typesNum
而在main.cpp中,我们声明了全局变量
trainIn用于装载训练集输入,trainOut用于装载训练集的输出(这里trainOut是二维数组是出于模型如果泛化,那么输出值不一定只有一个的情况,在本次实验中并未派上
您可能关注的文档
- 附属构筑物(排水沟、三维护坡、挡土墙....doc
- 防雷知识讲座PPT(改版).ppt
- 附加第7章 SQL Server 2005安全与权限.ppt
- 陇西县雪山初级中学制度汇编.docx
- 陇南市礼县二中八年级上册11.1.3三角形的稳定性.ppt
- 陈家山隧道进口泄水洞施组.doc
- 防火封堵技术.ppt
- 陈家洞高架桥的下部结构方案.doc
- 陈家河大桥下部构造及基础施工组织设计.doc
- 陈后金信号与系统4.ppt
- Unit 6 Get Close to Nauture Lesson 22 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 7 Be Together Lesson 23 -课件-2025-2026学年度北京版英语四年级上册.pptx
- 2025食品饮料行业AI转型白皮书-2025食品饮料行业数智化转型领先实践.pdf
- Unit 7 Be Together Lesson 24 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 7 Be Together Lesson 25 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 7 Be Together Lesson 26 -课件-2025-2026学年度北京版英语四年级上册.pptx
- 2025年广州体育职业技术学院单招职业倾向性考试题库完美版.docx
- 软件公司员工考勤异常处理.doc
- 2025年土地登记代理人之土地登记相关法律知识题库500道及完整答案【有一套】.docx
- 2025年四平职业大学单招职业适应性考试题库含答案.docx
最近下载
- IPC-2221C-EN TOC2023印制版设计通用标准 Generic Standard on Printed Board Design.pdf VIP
- 2022-2023新版人教版初中九年级化学上册(全册)课件.ppt
- 人教版物理九年级全册分层作业设计.doc
- 九上语文必背内容.docx VIP
- 标准图集-20S515-钢筋混凝土及砖砌排水检查井.pdf VIP
- 人教版初中九年级化学下册全册完整课件.ppt VIP
- 新高考语文64篇古诗文理解性默写汇编(含答案).docx VIP
- 物流工作流程及出入庫管理流程图.doc VIP
- 危化品安全数据表.doc VIP
- 丰田沟通技巧报联商培训讲义.pptx VIP
文档评论(0)