人工智能64随机森林.pptVIP

下载本文档

49
0
约3.17千字
约 21页
2016-12-03 发布于重庆
举报
版权申诉

人工智能64随机森林.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

人工智能64随机森林

随机森林建立随机森林的基本思想是,通过自助法(boot-strap)重采样技术,不断生成训练样本和测试样本,由训练样本生成多个分类树组成随机森林,测试数据的分类结果按分类树投票多少形成的分数而定。随机森林有两个重要参数,一是树节点预选的变量个数mtry,二是随机森林中树的个数ntree,一般默认mtry= (mall为所有变量的个数),ntree =500。算法通过R语言编制的程序实现。 R软件 R语言提供了一系列的统计工具（如线性和非线性模型，统计检验，时间序列分析，分类，聚类，回归，……） R 是一个程式语言，R 语言的基本要素是向量 (vector), 不是数目 (scalar). 因此, 以向量或矩阵的运算来说, 在 R 中通常只需 1 行程式码就可以解決. 简单介绍: x - c(1,2,3) x #输出x “#”号是说明语句字符, #后面的语句是说明语句; -表示赋值,c()表示数组,X-c() 即表示将一组数据赋给变量X；号是计算机提示符 rt-read.table(exam1.txt“,head=TRUE); rt lm.sol-lm(Weight, data=rt) summary(lm.sol) 文件的第一行是读文件exam1.txt；并认为文本文件exam1.txt中的第一行是文件的头head=TRUE ；否则（FALSE）文件中的第一行作为数据处理。并将读出的内容放在变量rt中。第二个rt是显示变量的内容（如果一行执行多个命令，需用分号（；）隔开）第二行是对数据rt中的重量作线性回归，其计算结果放置在变量lm.sol中第三行是显示变量lm.sol的详细内容读数据的方式读纯文本文件读纯文本文件有两个函数，一个是read.table()函数，另一个是scan()函数 read.table()函数 read.table()函数是读表格形式的文件。利用read.table()函数可读入数据，如 rt - read.table(houses.data) 此时变量rt是一个数据框，其格式与纯文本文件houses.data格式相同 scan( )函数 scan( )函数可以直接读纯文本文件数据。如： w - scan(weight.data) 也可以将由scan( )读入的数据存放成矩阵格式，如果将weight.data中的数据放在一个10行20列的矩阵中，其命令格式为 X - matrix(scan(weight.data, 0), nrow=10, ncol=20, byrow=TRUE) X 链接嵌入R软件的数据库,可以用data()函数调用这些数据库与软件包。如： data(iris) R软件中提供了iris数据，调用iris数据集 library()为调用程序包命令。如： library(randomForest) 调用随机森林程序包 set.seed(2) 括号中的2叫做随机数种子，在设定好了随机数种子后，你每次重新运行这个程序时得到的随机数都是相同的。然后把set.seed(2)这句话去掉，再运行两遍，结果是不一样的。随机森林算法随机森林算法是Leo Breiman于2001年提出的一种新型分类和预测模型,它具有需要调整的参数较少、不必担心过度拟合、分类速度很快, 能高效处理大样本数据、能估计哪个特征在分类中更重要以及较强的抗噪音能力等特点, 因此, 在基因芯片数据挖掘、代谢途径分析及药物筛选等生物学领域得到应用并取得了较好的效果。该方法是基于决策树（decision tree）的分类器集成算法。单棵树生长方法生长单棵分类树的原则是递归分区。最简单的树是二叉树，即树中每个节点最多有两个分支节点（见图）。分类树按照不纯度最小的原则，首先找到一个特征把全部训练样本分成两组，然后按照同样的规则对节点处的样本进行再次分类。在二叉树中，根节点包含全部训练数据，按照分支生成规则分裂为左孩子节点和右孩子节点，它们分别包含训练数据的一个子集，孩子节点可以继续分裂。这样依次进行，直到满足分支停止规则停止生长为止。这时每个终端节点称为叶节点。分支节点是判断特征是否满足（T是每个节点处判断的阈值），并按照节点不纯度最小的原则生成。节点n上的分类数据如果都来自于同一类别，则此节点的不纯度i (n)=0；如果分类数据服从均匀分布，则不纯度很大。常见的不纯度的度量有3种：误分类不纯度，熵不纯度和Gini不纯度。当生成一棵分类树时，通常需要防止出现过拟合现象。过拟合指的是分类树太复杂以至于包含了太多的噪声，对于测试数据工作得很好而对测试数据的分类性能很