- 24
- 0
- 约 7页
- 2016-09-15 发布于江苏
- 举报
SDABASDM模型调优—Baggingamp;Boosting.docx
SDABAS DM模型调优—Bagging Boosting
本文介绍模型调优的方法Bagging Boosting的应用方法,如有雷同纯属巧合?
分类算法性能优化问题的提出
SDABAS DM中包含很多分类算法,如:
决策树分类
ID3
C4.5
贝叶斯分类
神经网络分类
支持向量机分类
其他分类
各个算法有着不同的性能和运算精度,通过对同一数据源应用不同的分类算法进行性能测试,可比较各个算法的性能差异,进而选择最优的某个算法来完成模型训练。
当确定好使用某一算法进行模型训练时,如何通过其他优化手段进一步提升该算法的性能呢?本文介绍两个常用的简单方法Bagging Boosting。
分类法的准确率评估方式
保持(holdout)
原理:将数据集整体划分为两个独立的数据集,通常训练级(2/3),测试集(1/3)。
变形的划分:随机子选样。
K-次交叉验证(K-fold cross validation)
原理:将数据集分为k个子集,用k-1个子集做训练集,1个子集做测试集,然后k次交叉验证。
BaggingBoosting介绍
Bagging的基本思想
给定一个弱学习算法和一个训练集
单个弱学习算法准确率不高
将该学习算法使用多次得出预测函数序列,进行投票
最后结果准确率将得到提高
Bagging要求“不稳定”的分类方法;
比如:决策树,神经网络算法
不稳定:数据集的小的变动能够使得分类结果的显著的变动
Boosting基本思想
强学习算法: 准确率很高的学习算法
弱学习算法: 准确率不高,仅比随机猜测略好
提出问题:
是否可以将弱学习算法提升为强学习算法
基本思想:
每个样本都赋予一个权重
T次迭代,每次迭代后,对分类错误的样本加大权重,使得下一次的迭代更加关注这些样本。
Boosting也要求“不稳定”的分类方法
过程:
在一定的权重条件下训练数据,得出分类法Ct
根据Ct的错误率调整权重
特点:
Boosting易受到噪音的影响;
AdaBoost 可以用来鉴别异常;
具有最高权重的样本即为异常
Bagging 和boosting的区别
训练集:
Bagging:随机选择,各轮训练集相互独立
Boosting:各轮训练集并不独立,它的选择与前轮的学习结果有关
预测函数:
Bagging:没有权重;可以并行生成
Boosting:有权重;只能顺序生成
其他方面:
在大多数应用中,准确率比运算速度更为重要,因为计算机的性价比提高很快。
bagging和boosting都可以有效地提高分类的准确性。
在大多数数据集中,boosting的准确性比bagging高。
在有些数据集中,boosting会引起退化。---Overfit
Bagging和boosting方法的要求:
最基本的是分类方法的不稳定性。即:训练集的小变动能够使得分类模型显著变动。
在SDABAS DM中进行性能评估试验对比
创建未优化的分类模型并评估其计算精度
使用//Samples/data/Iris数据作为训练集,用决策树算法进行模型训练,使用交叉验证算子评估模型性能:
执行该流程得到默认参数下的决策树:
在性能矢量标签窗口,可看到默认决策树模型精度为93.33%+/-5.16%
加入Bagging算子重新评估精度
更改交叉验证操作符内部决策树算子为Bagging算子:
在Bagging算子内部设置同样的决策树算子:
执行该流程获得新的模型精度评估结果94.67+/-4.00%:
Bagging算子对模型性能提升的作用
通过对比两个模型评估结果,得到Bagging算子对决策树计算精度有一定的提升作用。本例中实际提升值为:94.67% - 93.33% = 1.33%
Boosting算子对模型性能提升的测试(一)
更改交叉验证中的Bagging算子为Boosting算子AdaBoost,Boosting内部子流程仍然使用默认的决策树算子:
??行该流程,得到新的模型性能评估结果,其计算精度为92.67%+/-7.57%:
可见在本例中Boosting算子并未提升模型计算精度,反而使精度下降了一点点。
Boosting算子对模型性能提升的测试(二)
上例中Boosting的表现不佳,猜测是由于Boosting固有的退化特性,使得某些情况下的数据计算精度表现不是很理想。下面更改流程中的数据源,换用另外一个测试集再次进行分析。
首先更改主流程中的数据源为 //Samples/data/Sonar,并在评估过程中使用两个交叉验证评估算子,其中上面的评估算子“Validation”里面使用了Boosting算子做训练,下面的评估算子“Validation(2)”未使用Boosting算子而是直接用决策树做训练,如图:
执行该流程得到两个不同的精度计算
您可能关注的文档
- N型半导体中进行受主掺杂.ppt
- OCR图像文字识别教程.doc
- Office 2010的图片文字识别功能.doc
- NMR 核磁共振氢谱.ppt
- OK 零售业与制造业供应链的异同.ppt
- OpenOffice模块的功能.ppt
- Overview计算机数据通信ppt.ppt
- Parallel Community Detection on large Networks With Propinquity Dynamics PPT.ppt
- pascal-带格式的输出语句及输入语句.doc
- PET父母效能训练专题.ppt
- 小区绿化施工协议书.docx
- 墙面施工协议书.docx
- 1 古诗二首(课件)--2025-2026学年统编版语文二年级下册.pptx
- (2026春新版)部编版八年级道德与法治下册《3.1《公民基本权利》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《4.3《依法履行义务》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.2《按劳分配为主体、多种分配方式并存》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.1《公有制为主体、多种所有制经济共同发展》PPT课件.pptx
- 初三教学管理交流发言稿.docx
- 小学生课外阅读总结.docx
- 餐饮门店夜经济运营的社会责任报告(夜间贡献)撰写流程试题库及答案.doc
原创力文档

文档评论(0)