- 1、本文档共65页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树与模型评估教材.pptx
第4章 分类:基本概念、决策树与模型评估
4.1预备知识
4.2解决分类问题的一般方法
4.3决策树归纳
4.4模型的过分拟合
4.5评估分类器的性质
4.6比较分类器的方法
分类任务:确定对象属于哪个预定义的目标类
例子:
1、根据电子邮件的标题和内容检查出垃圾邮件。
2、根据星系的形状对它们分类。
螺旋状的星系
椭圆状的星系
一、预备知识
分类任务的输入数据是记录的集合。每条记录也称实例或者样例,用元组(x, y)表示,其中x是属性的集合,而y是一个特殊的属性,指出样例的类标号(也成为分类属性或目标属性)。
分类?回归?
分类(classification)
通过学习得到一个目标函数(target function) , 也成为分类模型(classification model),把每个属性集x映射到一个预先定义的类标号y。
目的:
1、描述性建模
分类模型可以作为解释性的工具,用于区分不同类中的对象。
2、预测性建模
分类模型还可以用于预测未知记录的类标号。
名字
体温
表皮覆盖
胎生
水生动物
飞行动物
有腿
冬眠
类标号
毒蜥
冷血
鳞片
否
否
否
是
是
?
输入属性集(x)
输出类标号(y)
分类器的任务:根据输入属性集x确定类标号y
分类技术非常适合预测或描述二元或标称类型的数据集,对序数分类不太有效,因为分类技术不考虑隐含在目标类中的序关系。
分类技术是一种根据输入数据集建立分类模型的系统方法。
分类技术
决策树分类法
基于规则的分类法
神经网络
支持向量机
这些技术都使用一种学习算法确定分类模型,修改这个模型能够很好地拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好地拟合输入数据,还要能够正确地预测未知样本的类标号。
训练算法的目标:建立具有很好的泛化能力的模型。
二、解决分类问题的一般方法
朴素贝叶斯分类法
训练集:由类标号已知的记录构成
检验集:由类标号未知的记录构成
预测的类
类=1
类=0
实际的类
类=1
类=0
二类问题的混淆矩阵
表中每个表项 表示实际类标号为 但是被预测为类 的记录数。被分类模型正确预测的样本总数是 ,而被错误预测的样本总数是 。
虽然混淆矩阵提供衡量分类模型的信息,但是用一个数汇总这些信息更便于比较不同模型的性能。为实现这一目的,可以使用性能度量(performance metric),如准确率(accuracy),其定义如下:
同样,分类模型的性能也可以用错误率(error rate)来表示,其定义如下:
目标:寻求最高的准确率或者最低的错误率
1、什么是决策树?
类似于流程图的树结构
每个内部节点表示在一个属性上的测试
每个分枝代表一个测试输出
每个叶节点代表类或类分布
三、决策树(decision tree)归纳
3、决策树的使用:对未知样本进行分类
通过将样本的属性值与决策树相比较
2、决策树的生成由两个阶段组成
决策树构建
开始时,所有的训练样本都在根节点
递归通过选定的属性,来划分样本 (必须是离散值)
树剪枝
许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝
根结点(root node):它没有入边,但是有零条或多条出边。
内部结点(internal node):恰好有一条入边和两条或多条出边。
叶节点(leaf node)或终结点(terminal node):恰好有一条入边, 但没有出边。
叶结点
根结点
内部结点
一旦构造了决策树,对检验记录进行分类就很容易。从树的根结点开始,将测试条件用于检验记录,根据测试结果选择适当的分支。沿着该分支或者到达另一个内部结点,使用新的测试条件,或者到达一个叶结点。到达叶结点之后,叶结点的类标号就被赋值给该检验记录。
名字
体温
胎生
……
类标号
火烈鸟
恒温
否
……
?
恒温
否
冷血
是
如何建立决策树
对于给定的属性集,可以构造的决策树的数目达指数级。尽管某些决策树比其他决策树更准确,但是由于搜索空间是指数规模的,找出最佳决策树在计算上是不可行的。
尽管如此,人们还是开发了一些有效的算法,能够在合理的时间内构造出具有一定准确率的次最优决策树。这些算法通常都采用贪心策略。
有许多决策树算法:
Hunt算法
信息增益——Information gain (ID3)
增益比率——Gain ration(C4.5)
基尼指数——Gini index (SLIQ,SPRINT)
在Hunt算法中,通过将训练记录相继划分成较纯的子集,以递归方式建立决策树。设 是与
文档评论(0)