第三章--决策树学习-ZW-v9.1.ppt

下载文档

20
0
约1.24万字
约 63页
2018-05-28 发布于山东
举报
版权申诉
保障服务

第三章--决策树学习-ZW-v9.1.ppt

1、本文档共63页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2003.11.18 机器学习-决策树学习译者：曾华军等作者：Mitchell 讲者：陶晓鹏机器学习第3章决策树学习决策树学习:一个搜索完整表示空间的学习算法决策树学习是应用最广的归纳推理算法之一是一种逼近离散值函数的方法很好的健壮性能够学习析取表达式 ID3, Assistant, C4.5 搜索一个完整表示的假设空间归纳偏置是优先选择较小的树决策树表示了多个if-then规则决策树如何工作决策树通过把实例从根节点排列到某个叶子节点来分类实例。叶子节点即为实例所属的分类树上每个非叶节点确定了对实例的某个属性的测试节点的每个后继分支对应于该属性的一个可能值图3-1 决策树代表实例属性值约束的合取的析取式。从树根到树叶的每一条路径对应一组属性测试的合取，树本身对应这些合取的析取。基本的决策树学习算法大多数决策树学习算法是一种核心算法的变体采用自顶向下的贪婪搜索遍历可能的决策树空间 ID3是这种算法的代表基本的决策树学习算法（2） ID3的思想自顶向下构造决策树从“哪一个属性将在树的根节点被测试”开始使用统计测试来确定每一个实例属性单独分类训练样例的能力 ID3的过程分类能力最好的属性被选作树的根节点根节点的每个可能值产生一个分支训练样例排列到适当的分支重复上面的过程表3-1 用于学习布尔函数的ID3算法概要 ID3(Examples, Target_attribute, Attributes) 创建树的root节点如果Examples都为正,返回label=+的单节点树root 如果Examples都为反,返回label=-的单节点树root 如果Attributes为空，那么返回单节点root，label=Examples中最普遍的Target_attribute值否则开始 A?Attributes中分类examples能力最好的属性 root的决策属性?A 对于A的每个可能值vi 在root下加一个新的分支对应测试A=vi 令Examplesvi为Examples中满足A属性值为vi的子集如果Examplesvi为空在这个新分支下加一个叶子节点，节点的label=Examples中最普遍的Target_attribute值否则在新分支下加一个子树ID3（ Examplesvi,Target_attribute,Attributes-{A}）结束返回root 最佳分类属性信息增益用来衡量给定的属性区分训练样例的能力 ID3算法在增长树的每一步使用信息增益从候选属性中选择属性用信息熵的变化来度量样例的信息增益香农提出的“信息熵”的概念在信息世界，熵越高，则能传输越多的信息，熵越低，则意味着传输的信息越少。比如说，抛硬币这个事件的熵有多大呢？如果这是一枚正常的硬币，也就是说出现正面和反面的机会相等，则抛硬币事件的熵是一个与其结果出现概率相关的数值；使用一枚正常硬币进行抛掷，这个事件的熵是一比特，因为结果不外乎两个——正面或者反面。但是如果一枚硬币的两面完全相同，那个这个抛硬币事件的熵等于零，因为结果能被准确预测。要传达一个抛硬币结果至多需要1比特，但要传达一个抛骰子结果至多需要log2(6)=2.58比特。(6人谁先出牌) 信息理论的鼻祖Claude E. Shannon（香农）给出了熵的数学定义：当随机变量X的值域为{x1,x2, ,x3}时，其熵值 Entropy(X) 定义为每种取值之信息量的数学期望： Entropy(X) = P(x1)*I(x1)+P(x2)*I(x2)+P(x3)*I(x3) = ΣP(xi)*I(xi) = -ΣP(xi)*log P(xi) Entropy(X)熵的单位是比特。此定义正是教材p.41的公式（3.1）。两个计算信息熵的例子。例1：不正常的硬币（一面重一面轻）抛掷实验。正面的概率0.8,反面的概率0.2。于是，抛硬币的结果的Entropy熵为： Entropy(X) = P(x1)*I(x1)+P(x2)*I(x2) = = -ΣP(xi)*log P(xi) = - 0.8*log(0.8) – 0.2*log(0.2) = 0.7215 (比特）这里的0.7215比特就是所说的“平均少于1个比特” 最佳分类属性（2）用信息增益度量期望熵的降低属性的信息增益，由于使用这个属性分割样例而导致的期望熵降低 Gain(S,A)是由于给定属性A的值后而得到的信息墒的变化。下页举例计算信息增益的例子例如，假定S是一套有关天气的