分类和预测决策树概要1.pptVIP

下载本文档

6
0
约8.37千字
约 55页
2017-07-06 发布于湖北
举报
版权申诉

分类和预测决策树概要1.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分类和预测决策树概要1

第四章分类和预测 4.1 分类和预测的定义 4.2 数据分类方法决策树神经网络 SVM 贝叶斯网络 4.3 数据预测方法线性回归非线性回归第四章分类和预测 4.1 分类和预测的定义 4.2 数据分类方法决策树神经网络 SVM 贝叶斯网络 4.3 数据预测方法线性回归非线性回归 4.1 分类和预测的定义分类（Classification）给定一个数据集D={t1, t2, …, tn}和一个类别集合C={C1, C2, …, Cm}，数据分类就是通过定义一个映射f : D?C，为数据集D中的每条数据ti分配C中的一个类Cj。预测（Prediction）它是一种特殊的分类，当分类的类别是一个连续值时（可看成无限多类），就是数据预测。 4.1 分类和预测的定义数据分类和预测的步骤如下：第一步——建立模型第二步——使用模型下面以分类为例，详细介绍这两个步骤。第四章分类和预测 4.1 分类和预测的定义 4.2 数据分类方法决策树神经网络 SVM 贝叶斯网络 4.3 数据预测方法线性回归非线性回归 4.2 数据分类方法分类过程的数据预处理分类的评价标准——性能度量分类的评价标准假设：给定测试集Xtest={(xi, yi) | i=1, 2, …, N} N表示测试集中的样本个数； xi表示测试集中第i个样本； yi表示样本xi的类标号。对于测试集的第j个类别，分类结果如下：被正确分类的样本数量为TPj ；被错误分类的样本数量为FNj ；其他类别被错误分类为该类的样本数据量为FPj 。分类的评价标准精确度（正确率）：表示测试集中被正确分类的数据所占的比例。例如：在文字识别中，经常统计识别正确率，以此来表示识别系统的性能。分类的评价标准查全率（召回率）：表示在本类样本中被正确分类的样本所占的比例。查准率（精度）：表示被分类为该类的样本中，真正属于该类的样本所占的比例。分类的评价标准 F-measure：是查全率和查准率的组合表示。其中：β是可以调节的，通常取值为1。第四章分类和预测 4.1 分类和预测的定义 4.2 数据分类方法决策树神经网络 SVM 贝叶斯网络 4.3 数据预测方法线性回归非线性回归决策树什么是决策树？由数据的不同属性逐次划分数据集，直至得到的数据子集只包含同一类数据为止，这样可形成一棵树，称为决策树。结构上类似于程序流程图；每个内部结点表示在一个属性上的测试；每个分枝代表一个测试的输出；每个叶结点存放一个类标号。由树的根结点到某个叶结点的属性的合取可形成一条分类规则；所有规则的析取可形成一整套分类规则。决策树决策树——分类过程决策树——分类过程决策树——分类过程决策树——分类过程决策树——分类过程决策树——分类过程决策树——属性选择的次序问题决策树决策树关注的主要问题：决策树的生成算法 ID3算法 C4.5算法决策树的剪枝策略：许多分枝反映的是训练数据集中的噪声和离群点，剪枝试图识别并剪去这种分枝，以提高对未知数据分类的准确性。先剪枝方法后剪枝方法 ID3算法特点：在选择根结点和各个内部结点的分枝属性时，采用信息增益作为度量标准，因此每次都会选择具有最高信息增益的属性作为分枝属性。 ID3算法只能处理属性值为离散型的数据集的划分。 ID3算法给定数据集X = {(xi, yi) | i=1, 2, …, total}。 xi (i=1, 2, ..., total)用d维特征向量xi = (xi1, xi2, ..., xid)来表示，xi1, xi2, ..., xid分别对应d个属性A1, A2, ..., Ad的具体取值； yi (i=1, 2, ..., total)表示样本xi的类标号，假设要研究的分类问题有m个类别，则yi∈{c1, c2, ..., cm}。假设nj是数据集X中属于类别cj的样本数量，则各类别的先验概率为：对于数据集X，将其分为m类的期望信息为： ID3算法计算属性Af划分数据集X所得的熵：假设Af有q个不同取值，可按q的不同取值将X划分为q个不同的子集{X1, X2, …, Xs, …, Xq}；假设ns表示Xs中的样本数量，njs表示Xs中属于类别cj的样本数量，则由属性Af划分数据集X的熵为：其中： ID3算法计算属性Af划分数据集时的信息增益：属性的信息增益值越大，表示它的区分度就越高，使用该属性进行分类的效果就越好。 ID3算法是通过选择具有最高信息增益的属性作为数据集的划分，从而可创建决策树中的一个结点，根据该属性的不同取值可形成该结点的不同分枝。再对各分枝中的