人工智能-6机器学习-ID3.ppt

下载文档 降价啦

11
0
约 56页
2016-12-06 发布于重庆
举报
版权申诉
保障服务

人工智能-6机器学习-ID3.ppt

1、本文档共56页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

人工智能-6机器学习-ID3

* * * * * * * * * * * * * * * * * * * * * * * * * 本章待续…… * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 正确率（Accuracy）或错误率（Error Rate）正确率是被正确处理的数据个数与所有被处理数据个数的比值其中TErrorε表示被正确处理的数据，也就是误差足够小的数据错误率则是没有被正确处理的数据个数与所有被处理数据个数的比值 * 复合指标精度（Precision，或称为命中率，准确率）召回率（Recall，或称为覆盖率） a：判定属于类且判定正确； b：判定属于类且判定错误； c：判定不属于类且判定正确； d：判定不属于类且判定错误。 T=a+b+c+d * Fβ度量（Fβ-Measure） Fβ度量是精度和召回率的调和平均数（Harmonic Mean）其中β是一个大于0的实数，表示精度相对于召回率的权重。最常用β=1，即F1度量 * 多分类问题学习结果的评判对于测试集T，目标类别共有k个宏平均法（Macro Average）思路先计算各个类别自身的精度和召回率，然后把各个类别的指标加在一起求算术平均值。宏平均精度宏平均召回率 * 微平均法（Micro Average）把整个测试集看作单分类问题，一次性计算所有个体样本指标的平均值。微平均精度微平均召回率 * 决策树学习是应用最广的归纳推理算法之一。它是一种逼近离散值函数的方法。在这种方法中学习到的函数被表示为一颗决策树。学习得到的决策树也能再被表示为多个if-then规则，以提高可读性。决策树学习方法对噪声数据有很好的健壮性且能够学习析取表达式。决策树学习算法有很多，比如ID3、C4.5、ASSISTANT等等。这些决策树学习方法搜索一个完整表示的假设空间，从而避免了受限假设空间的不足。决策树学习的归纳偏置是优先选择较小的树。 * 决策树通过把实例从根节点排列(sort)到某个叶子节点来分类实例，叶子节点即为实例所属的分类。树上的每一个节点说明了对实例的某个属性(attribute)的测试，并且该节点的每一个后继分枝对应于该属性的一个可能值。分类实例的方法是从这颗树的根节点开始，测试这个节点指定的属性；然后按照给定实例的该属性值对应的树枝向下移动；然后这个过程再以新节点为根的子树上重复。 * 例子：在一个水果的分类问题中，采用的特征向量为：{颜色，尺寸，形状，味道}，其中：颜色属性的取值范围：红，绿，黄尺寸属性的取值范围：大，中，小味道属性的取值范围：甜，酸形状属性的取值范围：圆，细样本集：一批水果，知道其特征向量及类别问题：一个新的水果，观测到了其特征向量，应该将其分类哪一类？ * * 通常决策树代表实例属性值约束的合取(conjunction)的析取式(disjunction)。从树根到树叶的每一条路径对应一组属性测试的合取，树本身对应这些合取的析取。上述例子可对应如下析取式： (颜色=绿∧尺寸=大) ∨(颜色=绿∧尺寸=中) ∨(颜色=绿∧尺寸=小) ∨(颜色=黄∧形状=圆∧尺寸=大) ∨(颜色=黄∧形状=圆∧尺寸=小) ∨(颜色=黄∧形状=细) ∨(颜色=红∧尺寸=中) ∨(颜色=红∧尺寸=小∧味道=甜) ∨(颜色=红∧尺寸=小∧味道=酸) * 决策树学习适合解决具有以下特征的问题实例是由“属性-值”对表示的：实例是用一系列固定的属性和它们的值来描述的。目标函数具有离散的输出值：决策树给每个实例赋予一个布尔型的分类。决策树方法很容易扩展到学习有两个以上输出值的函数。可能需要析取的描述：决策树很自然地代表了析取表达式。训练数据可以包含错误：决策树学习对错误有很好的健壮性，无论是训练样例所属的分类错误，还是描述这些样例的属性值错误。训练数据可以包含缺少属性值的实例：决策树甚至可以再有未知属性值的训练样例中使用。 * 大多数已开发的决策树学习算法是一种核心算法（CLS算法）的变体。该算法采用自顶向下的贪恋搜索遍历可能的决策树空间。这种方法是ID3算法(Quinlan 1986)和后继的C4.5(Quinlan 1993)的基础。 * ID3是一种自顶向下增长树的贪婪算法在每个节点选取能最好分类样例的属性；