- 1、本文档共45页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树新工科建设之路·人工智能系列教材机器学习(MATLAB 版)第三章
01决策树的基本原理
1.树模型决策过程首先来看一个简单的例子。银行要根据客户有无偿还能力来确定是否给客户发放贷款为此需要考察客户的房产、平均月收入和婚姻情况。在做决策之前,会先获取客户的这三个数据。如果把这个决策看作分类问题,这三个数据指标就是属性向量的分量,类别标签是“可以贷款”和“不能贷款”。银行按照下面的流程进行决策:(1判断客户的房产情况。如果有房产,可以贷款:否则需要继续判断。(2)判断客户是否结婚。如果已婚,可以贷款;否则需要进一步判断。(3)判断客户的平均月收入。如果平均月收入大于或等于 1.5 万元,可以贷款;否则不能贷款。
1.树模型决策过程用图形表示这个决策过程就是一棵决策树,其示意图如图 3.1 所示。
1.树模型决策过程平均月收入是数值型属性,一般为整数或实数,可以比较其大小。而房产(有房产或无房产)和婚姻情况(已婚或未婚)是类别型属性,不能比较其大小。图 3.1 中的所有内部结点为椭圆形,叶结点(即决策结果)为圆形。每一个内部结点都表示一个属性条件判断,叶结点表示是否给客户发放贷款。例如,客户甲没有房产,没有结婚,平均月收入为 2万元。通过决策树的根结点判断,客户甲符合右边分支《拥有房产为“否”;再判断是否结婚,客户甲符合右边分支(未婚);然后判断平均月收入是否大于或等于 1.5 万元,客户甲符合左边分支(月收入大于 1.5 万元)该客户落在“可以贷款”的叶结点上。所以,预测客户甲具备偿还贷款能力,可以发放贷款。
1.树模型决策过程为了便于程序实现,一般将决策树设计成二叉树。决策树的结点一般分为两种类型:(1)决策结点 在这类结点处需要进行条件判断以确定进入哪个分支。决策结点一定至少有两个子结点。(2)叶结点 表示最终的决策结果,这类结点不再有子结点。在上面的例子中,叶结点的取值为“可以贷款”和“不能贷款”两种。一般来说,对于分类问题、叶结点的取值为类别标签。决策树属于层次结构模型可以为每个结点赋予一个层次: 根结点的层次数为 0子结点的层次数为其父结点的层次数加 1。树的深度定义为所有结点的最大层次数。图 3.1 所示的决策树深度为 3,也就是说,要得到一个决策结果,最多需要 3 次判定。
1.树模型决策过程决策树包括分类树和回归树,分别用以解决分类问题和回归问题。分类树的映射函数是多维空间中的分段线性函数,即用平行于各坐标轴的超平面对空间进行分割;回归树的映射函数则是分段常函数。由于决策树的映射函数是分段函数,因此决策树具有非线性建模的能力。对于回归问题,只要划分得足够细,分段常函数可以逼近闭区间上任意函数到任意指定的精度。也就是说,回归树在理论上可以对任意复杂的数据进行拟合。而对于分类问题,如果决策树层次足够深,便可以将训练样本集中的所有样本正确分类。但如果属性向量的维数过大,可能会因为面临“维数灾难”而导致准确率下降。
2.决策的基本架决策树算法是一种十分常用的分类与回归算法,它通过对样本数据的学习得到一个树形的分类器或回归器,能够对于新出现的待预测样本给出正确的预测(分类或回归)。决策树算法的构造是一个递归的过程,它采用自顶向下进行递归。下面给出基本决策树的算法框架。算法3.1(基本决策树)
2.决策的基本架
2.决策的基本架在算法 3.1 中,有三种情形会导致递归返回:一是当前结点包含的样本全部属于同一类别,无须分类;二是当前属性集为空集,或者所有样本在所有属性上取值相同,无法分类;三是当前结点包含的样本集为空集,不能分类。决策树算法的优点如下:(1)算法能够直接体现数据的特点,易于理解和实现,用户在学习过程中无须了解过多背景知识即可理解决策树所表达的意义。(2)计算量相对较小,运算速度快,且容易转化成分类规则。只要从根结点一直向下走到某个叶结点,沿途分割条件是唯一确定的。决策树算法的缺点主要是在处理大容量样本集时,容易出现过拟合现象,从而降低分类或回归的准确性。
3.决策树的剪枝剪枝是决策树对付过拟合的主要手段。在决策树学习中,为了尽可能对训练样本进行正确分类,有时会造成决策树分支过多,这时就可能会因为训练样本学得“太好”了,以至于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合。因此,可通过主动去掉一些分支来降低过拟合的风险。决策树的剪枝分为“预剪枝”和“后枝”。预剪枝实际上不存在真正的枝操作,它是指在构造决策树的过程中根据一定的条件判断产生新的分支。后剪枝则是先构建一棵层次比较深的决策树,然后从降低过拟合的角度将一些不能提高泛化性能的树枝剪掉。实际应用中,预剪枝和后剪枝可以结合使用:先利用预剪枝的判断条件来终止树的生长,再用后剪枝技术自底向上地把一些结点剪掉。
3.决策树的剪枝后剪枝的基本思路是
您可能关注的文档
- 机器学习(MATLAB版)ch01-绪论 教学课件.pptx
- 机器学习(MATLAB版)ch02-线性模型与逻辑斯谛回归 教学课件.pptx
- 机器学习(MATLAB版)ch04-贝叶斯分类器 教学课件.pptx
- 机器学习(MATLAB版)ch05-k近邻算法 教学课件.pptx
- 机器学习(MATLAB版)ch06-支持向量机 教学课件.pptx
- 机器学习(MATLAB版)ch07-人工神经网络 教学课件.pptx
- 机器学习(MATLAB版)ch08-线性判别分析 教学课件.pptx
- 机器学习(MATLAB版)ch09-主成分分析法 教学课件.pptx
- 机器学习(MATLAB版)ch10-聚类 教学课件.pptx
- 机器学习(MATLAB版)ch11-EM算法与高斯混合聚类 教学课件.pptx
文档评论(0)