《数据挖掘与机器学习》课件5.3.2 随机森林、任评估与优化加工厂玻璃类别识别模型.pptx

下载文档

0
0
约2.51千字
约 19页
2024-12-31 发布于山东
举报
版权申诉
保障服务

《数据挖掘与机器学习》课件5.3.2 随机森林、任评估与优化加工厂玻璃类别识别模型.pptx

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

评估与优化加工厂玻璃类别识别模型加工厂玻璃类别识别——决策树、随机森林

任务描述大国工匠，精益求精。拥有精益求精的学习和工作精神，才能够勇攀高峰，再创辉煌。在模型建立之后，通常需要对模型进行评估。如果模型的性能较差，那么可以考虑对模型进行调优。本任务介绍几种常见的评估方法，并在评估后对模型进行调优。在最后介绍了随机森林算法。

任务要求了解常见的评估方法。了解随机森林的基本概念。使用sklearn库对模型进行评估。使用sklearn库构造随机森林模型。

K折交叉验证与GridSearch网络搜索随机森林

随机森林单棵决策树虽然也能学习复杂的函数，但容易出现过拟合的问题。研究人员自然就想到是否能创建多棵决策树，让每棵树都参与模型的预测，最后按照“少数服从多数”的原则，选出总体的预测结果。这就是随机森林算法的雏形。随机森林（RandomForest）是一种基于决策树的集成学习算法。它将多个决策树进行集成，通过多数投票的方式对样本进行分类或回归预测。什么是随机森林？

随机森林决策树1分类结果1决策树2分类结果2决策树K分类结果K…有放回的抽取样本和特征构建多个新的数据集训练样本集Bootstrap抽样训练集1训练集2训练集k…

随机森林分类结果1分类结果2分类结果K…投票分类结果随机森林采用多数投票的方式，将每棵决策树的分类结果进行统计和汇总最终确定样本的分类结果

随机森林具体来说，随机森林的分类模型包含以下两个步骤。对于给定的数据集，运用Bootstrap自主抽样法，有放回的抽取样本和特征，构建多个新的数据集。对新的数据集进行决策树的生成，如选择最优的特征或属性、分裂节点、生成子节点等。Bootstrap自主抽样法是一种用于估计统计量抽样分布的统计方法。它的基本思想是通过对样本数据的有放回地抽取来模拟总体分布，并使用这些样本数据的统计量来估计总体分布中的统计量。模型训练通过多次随机抽取样本集和构建决策树，随机森林可以产生多个不同的决策树。随机森林采用多数投票的方式，将每棵决策树的分类结果进行统计和汇总，最终确定样本的分类结果。决策分类

随机森林使用sklearn库中的RandomForestClassifier类可以建立随机森林模型，其基本使用格式如下。classsklearn.ensemble.RandomForestClassifier(n_estimators=10,criterion=gini,max_depth=None,min_samples_split=2,min_samples_leaf=1,max_features=’auto’,n_jobs=1,random_state=None,class_weight=None)

随机森林RandomForestClassifier类常用参数及其说明如下。参数名称说明n_estimators接收int，表示决策树的数量，默认为10criterion接收str，表示衡量拆分质量的度量标准，默认为ginimax_depth接收int，表示树的最大深度。默认为None，表示不限制树的深度min_samples_split接收int或float，表示拆分一个内部节点所需的最小样本数，默认为2min_samples_leaf接收int或float，表示叶节点上所需的最小样本数，默认为1

随机森林RandomForestClassifier类常用参数及其说明如下。参数名称说明max_features接收int或str，表示每个决策树分裂时使用的最大特征数，默认为auto，表示所有特征n_jobs接收int，并行运算时使用的CPU核心数量。默认为1，表示使用所有核心random_state接收int，表示随机数生成器的种子，控制伪随机数的生成。默认为Noneclass_weight接收字典或str，表示样本权重的设置，默认为None，表示所有样本权重相等

随机森林1234确定随机森林参数拟合数据求出预测结果的准确率和混淆矩阵预测测试集结果

随机森林随机森林的优缺点随机森林的优点如在决策树中所述，可以防止过拟合问题，提高模型的泛化能力。随机森林的缺点在于解释性不如单棵决策树，对于某些特定问题可能表现不佳。同时，由于随机森林需要构建多棵决策树，因此，其模型的训练时间和内存开销较大。在实际应用中，随机森林通常用于分类和回归问题，如金融信用评分、医学诊断、自然语言处理等领域。

使用GridSearch网络搜索进行模型调优构建随机森林模型

使用GridSearch网络搜索进行模型调优使用GridSearch网络搜索进行模型调优主要通过以下4个步骤实现。使用import和from导入GridSearchCV、DecisionTreeClassifier、RandomForestC

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《数据挖掘与机器学习》课件5.3.2 随机森林、任评估与优化加工厂玻璃类别识别模型.pptx