- 1、本文档共24页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
. 决策树和决策规则 第7章 本章目标 分析解决分类问题的基于逻辑的方法的特性 信息论基础 ID3算法 了解何时以及怎样用修剪方法降低决策树和复杂度 总结用决策树和决策规则表示一个分类模型的局限性 什么是分类? 数据分类(data classfication)是数据挖掘的主要内容之一,主要是通过分析训练数据样本,产生关于类别的精确描述。这种类别通常由分类规则组成,可以用来对未来的数据进行分类和预测。 数据分类的两个步骤: 第1步:建立一个模型,描述给定的数据类集或概念集(简称训练集) 第2步:使用模型对数据进行分类。包括评估模型的分类准确性以及对类标号未知的元组按模型进行分类 训练数据 分类算法 分类规则 学习 测试数据 待分类数据 分类规则 模型评估 新数据分类 7.1 信息论基础 信息论是C.E.Shannon四十年代末期,以客观概率信息为研究对象,从通信的信息传输问题中总结和开拓出来的理论。主要研究的问题 : 信源的描述,信息的定量度量、分析与计算 信道的描述,信道传输的定量度量、分析与计算。 信源、信道与通信系统之间的统计匹配,以及通信系统的优化 —Shannon的三个编码定理。 信息论诞生五十年来,至今,仍然是指导通信技术发展的理论基础,是创新通信体制的源泉 。 香农信息(概率信息) 信息是事物运动状态或存在方式的不确定性的描述。 在通信系统中形式上传输的是消息,但实质上传输的是信息 信源 信宿 信道 消息 干扰或噪声 (发信者) (收信者) 通信系统框图 样本空间:某事物各种可能出现的不同状态,即所有可能选择的消息的集合。 对于离散消息的集合,概率测度是对每一个可能选择的消息指定一个概率。一个样本空间和它的概率测度称为一个概率空间。表示:[X,P] 在离散情况下: 其中,P(ui)为选择符号 ui作为消息的概率,称为先验概率 信源数学模型 后验概率:条件概率 —接收端收到消息(符号) 后而发送端发的是 的概率。 自信息:消息 发生后所含有的信息量,反映了消息 发生前的不确定性: 信源熵 定义:信源各个离散消息的自信息量的数学期望(即概率加权的统计平均值)为信源的平均信息量,一般称为信源的信息熵,也叫信源熵或香农熵,有时也称为无条件熵或熵函数,简称熵。 公式: 熵函数的自变量是X,表示信源整体,实质上是无记忆信源平均不确定性的度量。 单位:以2为底,比特/符号 互信息 后验熵:当接收到输出符号V=vj后,信源的平均不确定性,即输入符号U的信息度量 条件熵:对后验熵在输出符号集V中求期望 称为信道疑义度。表示在输出端收到全部输出符号V后,对于输入端的符号集U尚存有不确定性(有疑义),这是由于存在干扰(噪声)引起的。 H(U|V)H(U),表明接收到符号集V的所有符号后,关于输入符号U的平均不确定性减少了。 互信息:先验的不确定性减去收到输出符号集V后尚存在的不确定性,表示收信者获得的信息量,也称信息增益 7.2 ID3算法 决策树(Decision Tree)方法: 决策树方法的起源是概念学习系统CLS,然后发展到由Quiulan研制ID3方法,然后到著名的C4.5算法,C4.5算法的一个优点是它能够处理连续属性。 决策树又称为判定树,是运用于分类的一种树结构。其中的每个内部结点代表对某个属性的一次测试,每条边代表一个测试结果,叶结点代表某个类或者类的分布,最上面的结点是根结点。 7.2 ID3算法(续) ID3算法思想: 任意选取一个属性作为决策树的根结点,然后就这个属性所有的取值创建树的分支; 用这棵树来对训练数据集进行分类,如果一个叶结点的所有实例都属于同一类,则以该类为标记标识此叶结点;如果所有的叶结点都有类标记,则算法终止; 否则,选取一个从该结点到根路径中没有出现过的属性为标记标识该结点,然后就这个属性所有的取值继续创建树的分支;重复算法步骤step 2 显然,不同的属性选取顺序将生成不同的决策树。因此,适当地选取属性将生成一棵简单的决策树。在ID3算法中,采用了一种基于信息的启发式的方法来决定如何选取属性。启发式方法选取具有最高信息增益的属性,也就是说,生成最少分支决策树的那个属性。 7.2 ID3算法(续) 属性1 属性2 A 70~79 类1 80~89 属性3 类2 假 90~99 类2 属性2 60~69 属性3 类1 真 70~79 属性3 类1 假 90~99 属性3 类1 真 B 属性2 70~79 属性3 80~89 属性3 90~99 属性3 类2 真 类1 假 类2 真 类1 假 7.2 ID3算法(续) 属性2 属性1 A 80~89 属性3 类1 真 属性1 60~69 属性3 类1
您可能关注的文档
- 第6章-分离序列中和PPT课件.ppt
- 第6章-分子生物学研究方法(下)PPT课件.ppt
- 第6章-风管设计计算PPT课件.ppt
- 第6章-光电检测技术应用举例PPT课件.ppt
- 第6章-合金钢PPT课件.ppt
- 第6章-焊缝跟踪技术PPT课件.ppt
- 第6章-西方政府机构比较PPT课件.ppt
- 第6章-压电式传感器v2PPT课件.ppt
- 第6章-医药市场竞争战略PPT课件.ppt
- 第6章-直流电机的用途、基本工作原理和结构PPT课件.ppt
- 市直机关工委及个人述职述廉2024年党建工作情况报告材料.docx
- 区委书记在2025年一季度经济运行部署会议上的讲话发言材料.docx
- 市直机关单位、卫健委党支部2024年工作述职报告材料.docx
- 市委副书记、市长在2025年市委城乡规划委员会第一次会议上的讲话发言材料.docx
- 某单位领导干部2024年生活会、组织生活会对照检查材料(对照“四个带头”).docx
- 2024年民政局、宣传部、教育局基层主要领导个人述责述廉报告材料.docx
- 2025年2月党支部“三会一课”参考主题方案.docx
- 在某中学2025年春季开学典礼上的讲话:以“三重境界”燃动新学期.docx
- 2024年度领导干部专题民主生活会、组织生活会对照检查材料(四个带头)及学习研讨会上的发言材料.docx
- 市纪委市监委2025年度纪检监察工作计划.docx
最近下载
- 施乐DC C2265 C2263 C2260中文维修手册.pdf
- 2024年全国各省市中考真题汇编:一次函数压轴(word含解析).doc VIP
- 常用矽钢片直流磁化曲线.xls
- 基于Silvaco-TCAD的InGaAsInP探测器仿真.docx
- 《小巴掌童话》阅读导读课.docx
- Purchase Contract(采购合同范本英文版)7篇.docx
- DB62T 4867-2023 公路桥梁预应力后张法施工技术规范.pdf VIP
- 《机械装配技术(第3版)》教学课件—04密封件的装配.ppt VIP
- 144KD课件.docx
- 2024年辽宁铁道职业技术学院单招英语考试题库及答案解析.docx
文档评论(0)