面向高维数据随机森林算法优化探讨.docVIP

下载本文档

4
0
约4.5千字
约 10页
2018-09-22 发布于福建
举报
版权申诉

面向高维数据随机森林算法优化探讨.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向高维数据随机森林算法优化探讨

面向高维数据随机森林算法优化探讨　　作者简介：罗超，2003年毕业于湘潭大学测控技术与仪器专业；2013年至2016年，就读于人民大学统计学院；现任职于霍尼韦尔航空航天部门，专注于航空航天和空中交通管理大数据方向的研究和挖掘。　　摘要：面向高位数据的随机森林算法属于数据挖掘领域中的一部分内容，做好随机森林算法的优化工作，对于高维数据的分析及处理效率的提高有着极大的促进作用。文章主要论述的便是有关这方面的内容。首先，文章针对随机森林算法的定义及其泛化误差进行了简要的概述，继而在此基础上分析了高维数据的可视化及基于随机森林的有监督降维技术，最后，文章对整个实验的结果进行了分析，得出了最终优化结论，希望能够为数据挖掘领域提供具有参考价值的意见，同时也为面向高维数据的随机森林算法优化奠定坚实的基础。　　关键词：高维数据；随机森林算法；优化　　一、引言　　互联网技术的出现及发展使得计算机逐渐进入了千家万户，并成为了各个领域处理数据的一个主要手段，目前，随着社会的不断进步，高维数据的增长速度也开始越来越快，海量的高维数据为其分析与处理过程带来了困难。就目前的情况看，我国在对高维小样本数据进行挖掘时还存在一定的问题，而将随机森林算法应用到高维数据的处理方面对其准确性以及分析效率的提高都具有重要作用，因此，相关领域必须认识到这一点，要做好其利用与优化工作，这样才能最大程度的保证我国数据挖掘技术的进一步提高。　　二、随机森林算法　　想要做好面向高维数据的随机森林算法优化工作，首先就必须要对随机森林算法达到一定程度的了解，这是优化工作的基础，同时也是工作人员必须具备的基础性知识。　　（一）随机森林算法定义　　总的来说，随机森林是一个树形分类器的集合，其中元分类器是使用CART算法来构建的未剪枝的分类回归树，在树形分类器的集合中，分别存在代表输入向量的部分以及代表独立同分布的随机向量的部分，一般情况下，想要得出随机森林算法的结果，主要应通过投票法来实现。　　随机森林这一算法的核心特点体现在其随机性，主要表现为以下两方面：首先，在选取训练样本集时，随机森林算法要求必须用Bagging算法来实现，且必须要随机对样本进行选择，这是这一算法随机性的第一点体现。其次，在对随机森林算法进行应用时，需要选取分裂属性集，而这一算法随机性的第二点体现便在于对分裂属性集的选取方面。例如：假设样本一共存在X个属性，可以指定其中一个属性数Y小于等于X，这样一来，可以通过全部样本X中随机抽取Y个属性，将其作为分裂属性集，而分裂方式则可以有多种选择，通常情况下，为提高分裂效率，节省分裂时间，相关人员往往会选择最容易分裂的方式进行分裂。　　（二）随机森林的泛化误差　　作为随机森林算法中的一项重要内容，对随机森林泛化误差进行了解对于了解以及应用整个随机森林算法具有重要作用。　　对此，可以对学习器的输入向量以及输出标记进行假设，前者可以假设为X，后者可以假设为Y，除此之外，还需要对角色树节点特征的随机向量进行表示，通过对各向量的整合，可以得出随机向量的间隔函数，如下所示：　　mg（X，Y）=Pθ（h（X，Θ）=j）　　在函数中，等号前边的mg（X，Y）通常用来表示样本数据被分对与分措的概率之差，因此，对随机森林泛化性能的确定便可以通过分类器的分类效果来确定，而分类器的分类效果则可以通过间隔函数看出，通常情况下，三者成正比。　　分类器集合的泛化误差如下所示：　　PE*=PX，Y（mg（X，Y）0）　　随机森林分类强度如下所示：　　S=EX，Y（mg（X，Y））　　随机森林的泛化误差的估计结果如下所示：　　PE*≤P〖TX-〗（1-S2）/S2 　　根据对随机森林泛化误差估计结果的分析，可以发现，随着随机森林中分类树数目的增长，这一算法不会导致过拟合。　　三、基于随机森林的可视化　　（一）高维数据可视化　　人们在对世界已经事物的了解过程中，往往首先利用的感觉器官便为眼睛，高维数据的可视化便利用了人类的这一特征。目前，面对海量的高维数据，其数据挖掘过程十分困难，高维数据的可视化可以将数据以直观的图像形式呈现给工作人员，这对于其了解数据的特征及分布情况具有重要意义，因此对于数据挖掘的结果也便能够很好的理解。高维数据的可视化充分利用了人脑功能，相对于以往传统的分析方法讲得到了很大程度的进步。　　在数据挖掘领域，应用效果较好的高维数据可视化方法包括很多种，其中平行坐标法便属于其中一种，所谓的平行坐标法主要指的是通过对多为空间的各属性对应映射到二位空间中等距离的多个平行坐标轴上的方法，去使每个样本都能够用多个坐标轴上点之间的连接线段连接来表示。总的来说，平行坐标法具有使用简单、容易理解的特点，