随机森林及支持向量机分类性能比较.docVIP

下载本文档

24
0
约3.84千字
约 6页
2017-11-06 发布于福建
举报
版权申诉

随机森林及支持向量机分类性能比较.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

随机森林及支持向量机分类性能比较

随机森林及支持向量机分类性能比较摘要：随机森林是一种性能优越的分类器。为了使国内学者更深入地了解其性能，通过将其与已在国内得到广泛应用的支持向量机进行数据实验比较，客观地展示其分类性能。实验选取了20个UCI数据集，从泛化能力、噪声鲁棒性和不平衡分类三个主要方面进行，得到的结论可为研究者选择和使用分类器提供有价值的参考。关键词：随机森林；支持向量机；分类中图分类号：O235 文献标识码：A DoI: 10.3969/j.issn.1003-6970.2012.06.038 Comparison on Classification Performance Between Random Forests and Support Vector Machine HUaNG Yan, ZHa wei-xiong (Institute of Transportation and Economics, East China Jiaotong University, Nanchang 330013, China) 【Abstract】Random Forests is an excellent classifier. In order to make Chinese scholars fully understand its performance, this paper compared it with Support Vector Machine widely used in China by means of data experiments to objectively show its classification performance. the experiments, using 20 UCI data sets, were carried out from three main aspects: generalization, noise robustness and imbalanced data classification. Experimental results can provide references for classifiers? choice and use. 【Key words】Random Forests; Support Vector Machine; classification 0 引言分类是数据挖掘领域研究的主要问题之一，分类器作为解决问题的工具一直是研究的热点。常用的分类器有决策树、逻辑回归、贝叶斯、神经网络等，这些分类器都有各自的性能特点。本文研究的随机森林[1]（Random Forests，RF）是由Breiman提出的一种基于CART决策树的组合分类器。其优越的性能使其在国外的生物、医学、经济、管理等众多领域到了广泛的应用，而国内对其的研究和应用还比较少[2]。为了使国内学者对该方法有一个更深入的了解，本文将其与分类性能优越的支持向量机[3]（Support Vector Machine，SVM）进行数据实验比较，客观地展示其分类性能。本文选取了UCI机器学习数据库[4]的20个数据集作为实验数据，通过大量的数据实验，从泛化能力、噪声鲁棒性和不平衡分类三个主要方面进行比较，为研究者选择和使用分类器提供有价值的参考。 1 分类器介绍 1.1 随机森林随机森林作为一种组合分类器，其算法由以下三步实现： 1. 采用bootstrap抽样技术从原始数据集中抽取ntree个训练集，每个训练集的大小约为原始数据集的三分之二。从表5的实验结果可以明显地看出，随机森林在不平衡分类性能上显著逊色于支持向量机。本实验是在未设置类权重的情况进行的，我国学者李建更等对加权随机森林（Weighted Random Forest，WRF）进行了实验研究，结果表明对不平衡数据进行权重设置在大多数情况下能取得优于普通随机森林的结果[12]，其在研究中还就权重的设置提出几点很有价值的规律，详见文献[12]。此外，还可以通过数据层面的处理来提高分类器的性能，常用的技术有欠抽样（undersampling）、过抽样（oversampling）及两种技术的混合。通过数据实验，得出以下关于随机森林与支持向量机在分类性能方面的几点结论：（1）使用随机森林无需预先对数据进行预处理，而若使用支持向量机则有必要进行数据预处理；（2）在二分类问题上，二者的泛化能力无显著差异；（3）在多分类问题上，随机森林的泛化能力显著优于支持向量机；（4）二者对数据类别噪声的鲁棒性无显著差异；（5）在不平衡分类问题上，随机森林显著逊色于支持向量机