- 1、本文档共55页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Data mining.ppt
机器学习常用技术 基本概念 训练、拟合 验证(交叉验证,独立测试) 预报 过拟合 变量(feature) 目标(回归/分类) 2.K-最近邻方法( KNN ) 3.决策树算法 决策树学习是一种逼近离散值函数的算法,对噪声数据有很好的健壮性,且能够学习析取表达式 预修剪(pre-pruning) 后修剪(post-pruning) ①训练和验证集法, ②使用统计的方法, ③最小描述长度准则 4.Ensemble learning algorithm 狭义地说,集成学习是指利用多个同质的学习器来对同一个问题进行学习。 广义地来说,只要是使用多个学习器来解决问题,就是集成学习。 集成学习的构成方法 输入变量集重构法 输出变量集重构法 样本集重新抽样法 – 不稳定算法 参数选择法 –经验 集成算法的作用 提高预测结果的准确性 提高预测结果的稳定性 解决过拟合问题 改进参数选择 Ensemble learning algorithm Bagging Adaboost 4. 1Bagging Bagging Breiman利用bootstrap方法生成很多组,每组n个样本的训练集,求出一个投票的“平均”结果。他称这种方法为Bootstrap Aggregating,简称Bagging Bagging 直观的想法:对某个测试样本,如果用这些分类函数的结果投票,以多数为优胜,将得到一个“平均”的结果,这个平均的结果可能比只用一个随机的n个样本的训练集得到的判别函数要好,或者说更“稳定”。 1.给定训练样本集。 2.对样本集进行初始化; 3.循环t=1,...T,在循环中的每一次: 从初始训练样本集S中用bootstrap方法抽取m个样本,组成新的训练集; 在训练集S’上用基本分类器进行训练,得到t轮学习器ht, 保存结果模型ht; 4.通过投票法,将各个弱学习器通过投票法集合成最终的强学习器。 Bagging 大量实验结果表明,对于“不稳定”的分类器(也就是说如果训练样本稍加改变,得到的判别函数就会产生较大变化) Breiman指出,稳定性是Bagging 能否提高预测准确率的关键因素:Bagging 对不稳定的学习算法能提高预测的准确度,而对稳定的学习算法效果不明显,有时甚至使预测精确度降低。 4. 2 AdaBoost Adaboost产生于计算学习理论(Computational Learning Theory,Valiant 1984) AdaBoost AdaBoost是给定一弱学习算法和一训练集, 。 初始化时对每一个训练样本赋相等的权重1/n,然后用该学习算法对训练集训练t轮,每次训练后,对训练失败的训练样本赋以较大的权重,也就是让学习算法在后续的学习中集中对比较难的训练例进行学习,从而得到一个预测函数序列h1,…,ht,其中hj也有一定权重。预测效果好的预测函数权重较大,反之较小。最终的预测函数H 对分类问题采用有权重的投票方式,对回归问题采用加权平均的方法对新示例进行判别。 AdaBoost AdaBoost 理论上若训练轮数过多,AdaBoost将发生过拟和。但大量的试验表明AdaBoost即使训练几千轮后仍不会发生过拟和现象。而且AdaBoost在训练误差达到零后仍会继续降低泛化误差。 Adaboost的优点 分类更加精确 可以和多种分类器组合使用 应用领域广 实施方便 避免过拟和 Bagging与AdaBoost的区别 Bagging的训练集的选择是随机的,各轮训练集之间相互独立,而AdaBoost的训练集的选择不是独立的,各轮训练集的选择与前面各轮的学习结果有关; Bagging 的各个预测函数没有权重,而AdaBoost是有权重的; Bagging的各个预测函数可以并行生成,而AdaBoost的各个预测函数只能顺序生成。对于象神经网络这样极为耗时的学习方法,Bagging可通过并行训练节省大量时间开销。 5. Support Vector Machine (SVM) Support Vector Classification Support Vector regression 5.1支持向量机分类算法 大间隔思想与最佳分类面 线性可分情况 非线性可分情况 基本的核函数 大间隔与最佳分类超平面 线性可分的情况 非线性可分的情况 核函数 原始空间的简单超平面不能得到满意的分类,则必须用核函数升维至高维的空间: 多项式核函数: 径向基
您可能关注的文档
- 9章绩效管理成本与效益分析.ppt
- 9语文教学设计.ppt
- 9高中物理实验的有效教学的探究.doc
- A 人类文明的生态学透视.doc
- AAB ABB ABAB ABCC AABC AABB ABAC词语大全及其它.doc
- AAB式,AABB式,ABB式词语大全.doc
- ABAQUS 问答比较有用.doc
- ABB式形容词的注音.doc
- adham比较制度.doc
- ADSL疑难解答.doc
- 2025中国冶金地质总局所属在京单位高校毕业生招聘23人笔试参考题库附带答案详解.doc
- 2025年01月中国人民大学文学院公开招聘1人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024黑龙江省农业投资集团有限公司权属企业市场化选聘10人笔试参考题库附带答案详解.pdf
- 2025汇明光电秋招提前批开启笔试参考题库附带答案详解.pdf
- 2024中国能建葛洲坝集团审计部公开招聘1人笔试参考题库附带答案详解.pdf
- 2024吉林省水工局集团竞聘上岗7人笔试参考题库附带答案详解.pdf
- 2024首发(河北)物流有限公司公开招聘工作人员笔试参考题库附带答案详解.pdf
- 2023国家电投海南公司所属单位社会招聘笔试参考题库附带答案详解.pdf
- 2024湖南怀化会同县供水有限责任公司招聘9人笔试参考题库附带答案详解.pdf
- 2025上海烟草机械有限责任公司招聘22人笔试参考题库附带答案详解.pdf
文档评论(0)