- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
评估与优化加工厂玻璃类别识别模型加工厂玻璃类别识别——决策树、随机森林
任务描述大国工匠,精益求精。拥有精益求精的学习和工作精神,才能够勇攀高峰,再创辉煌。在模型建立之后,通常需要对模型进行评估。如果模型的性能较差,那么可以考虑对模型进行调优。本任务介绍几种常见的评估方法,并在评估后对模型进行调优。在最后介绍了随机森林算法。
任务要求了解常见的评估方法。了解随机森林的基本概念。使用sklearn库对模型进行评估。使用sklearn库构造随机森林模型。
K折交叉验证与GridSearch网络搜索随机森林
K折交叉验证K折交叉验证(K-foldcross-validation)是一种常用的机器学习模型评估方法。在K折交叉验证中,将数据集划分为K个互不重叠的子集,每次用其中一个子集作为验证集,剩下的K-1个子集作为训练集。通过训练模型,计算模型在验证集上的性能指标。这个过程重复K次,每个子集都会作为一次验证集,最终将K次验证的结果取平均值作为最终的性能指标。什么是K折交叉验证?
K折交叉验证通过K折交叉验证取平均值作为最终性能指标,体现数据的平等性,正如平等是人的最基本权利,是人类社会的理想价值追求,数据也是需要平等对待的,数据无大小,每一个都有其地位和作用。什么是K折交叉验证?
K折交叉验证K折交叉验证的优点在于可以更好地评估模型的泛化性能,因为每个子集都会被用作一次验证集,这样可以使得模型在不同数据集上的性能表现更加稳定。同时,K折交叉验证也可以更充分地利用数据集,因为每个样本都可以被用作一次验证集。K折交叉验证的优点
K折交叉验证划分为K个大小相似的互斥子集
K折交叉验证使用sklearn库中的cross_val_score类执行交叉验证并计算模型评分,其基本使用格式如下。sklearn.model_selection.cross_val_score(estimator,X,y=None,*,groups=None,scoring=None,cv=None,n_jobs=None,verbose=0,fit_params=None,pre_dispatch=2*n_jobs,error_score=nan)
K折交叉验证cross_val_score类常用参数及其说明如下。参数名称说明estimator接收任何可调用的Python对象,表示需要评估的模型对象,无默认值X接收(n_samples,n_features)样式的数组,表示特征矩阵,无默认值y接收(n_samples,)或(n_samples,n_outputs)样式的数组,表示目标变量,默认为Nonescoring接收str或任何可调用的python对象,表示模型评估指标。默认为None,使用模型的默认评估指标cv接收int、交叉验证生成器或可迭代器,表示交叉验证的次数或是指定使用交叉验证生成器或可迭代器,控制数据如何分割。默认为None,使用5折交叉验证
K折交叉验证1234划分训练集和测试集训练决策树模型使用cross_val_score类执行交叉验证并计算模型评分拟合决策树模型
GridSearch网络搜索GridSearch网络搜索是一种参数调优的手段。使用sklearn库中的GridSearchCV类可以进行网络搜索,其基本使用格式如下。什么是GridSearch网络搜索?classsklearn.model_selection.GridSearchCV(estimator,param_grid,*,scoring=None,n_jobs=None,iid=deprecated,refit=True,cv=None,verbose=0,pre_dispatch=2*n_jobs,error_score=nan,return_train_score=False)
GridSearch网络搜索GridSearchCV类常用参数及其说明如下。参数名称说明estimator接收sklearn模型对象,表示需要调优的模型对象,无默认值param_grid接收字典,表示待调优的超参数组合,字典的键是超参数的名称,字典的值是待搜索的超参数列表,无默认值
GridSearch网络搜索参数名称说明scoring接收str或一个Python可调用对象,如果是字符串,则表示使用预定义的评估指标,例如accuracy、precision、recall等;如果是可调用对象,则表示自定义的评估指标,默认值为Nonecv接收整数、交叉验证生成器或可迭代器,表示交叉验证的次数或是指定使用交叉验证生成器或可迭代器,控制数据如何分割。默认为None,使用5折交叉验证refit接收bool,表示是否在搜索结束后用最佳的参数重新拟合整个
您可能关注的文档
- 《数据挖掘与机器学习》 课件 1.1.1 初识机器学习与数据挖掘、Python、Anaconda.pptx
- 《数据挖掘与机器学习》 课件1.1.2 安装Python.pptx
- 《数据挖掘与机器学习》 课件1.2 安装PyCharm.pptx
- 《数据挖掘与机器学习》 课件2.1 分析农产品类型情况.pptx
- 《数据挖掘与机器学习》 课件2.2.1 数据读取与写入.pptx
- 《数据挖掘与机器学习》 课件2.2.2 pandas数据结构.pptx
- 《数据挖掘与机器学习》 课件2.2.3 数据清洗.pptx
- 《数据挖掘与机器学习》 课件2.2.4 数据合并.pptx
- 《数据挖掘与机器学习》 课件2.2.5 分组聚合、处理农产品基本信息数据.pptx
- 《数据挖掘与机器学习》 课件2.3.1 基本语法和常用参数.pptx
- 某县纪委监委开展“校园餐”突出问题专项整治工作汇报22.docx
- 中小学校园食品安全与膳食经费管理专项整治工作自查报告66.docx
- 某县委常委、宣传部部长年度民主生活会“四个带头”个人对照检查发言材料.docx
- XX县委领导班子年度述职述廉报告3.docx
- 某县纪委关于校园餐问题整治工作落实情况的报告.docx
- 中小学校园食品安全与膳食经费管理专项整治工作自查报告22.docx
- 某县税务局党委领导班子年度民主生活会“四个带头”对照检查材料.docx
- 某县委书记在县委常委班子年度民主生活会专题学习会上的讲话.docx
- 某县纪委校园餐问题整治工作落实情况的报告.docx
- 某区委副书记、区长年度民主生活会对照检查材料.docx
文档评论(0)