- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
5講专家系统
2003.11.18 机器学习-决策树学习 译者:曾华军等 作者:Mitchell 讲者:陶晓鹏 第5讲 专家系统 决策树学习概述 决策树(Decision Tree)学习是以样本为基础的归纳学习方法。 决策树的表现形式是类似于流程图的树结构,在决策树的内部节点进行属性值测试,并根据属性值判断由该节点引出的分支,在决策树的叶节点得到结论。内部节点是属性或属性的集合,叶节点代表样本所属的类或类分布。 经由训练样本集产生一棵决策树后,为了对未知样本集分类,需要在决策树上测试未知样本的属性值。测试路径由根节点到某个叶节点,叶节点代表的类就是该样本所属的类。 数据实例 PlayTennis数据库片段: 决策树实例 关于PlayTennis的决策树如图所示: 决策树学习算法的代表 决策树学习的基本算法是贪心算法,采用自顶向下的递归方式构造决策树。 Quinlan于1986年提出了著名的ID3算法(published on ML)。之后Quinlan对ID3算法做了一系列的改进,于1993年形成了C4.5算法。 ID3算法 ID3的思想 自顶向下构造决策树 从“哪一个属性将在树的根节点被测试”开始 使用统计测试来确定每一个实例属性单独分类训练样例的能力 ID3的过程 分类能力最好的属性被选作树的根节点 根节点的每个可能值产生一个分支 训练样例排列到适当的分支 重复上面的过程 伪代码 算法 Decision_Tree(samples, attribute_list) 输入 由离散值属性描述的训练样本集samples;候选属性集合atrribute_list。 输出 一棵决策树。 方法 (1) 创建节点N; (2) if samples 都在同一类C中 then (3) 返回N作为叶节点,以类C标记; (4) if attribute_list为空 then 伪代码(续) (5) 返回N作为叶节点,以samples中最普遍的类标记;//多数表决 (6) 选择attribute_list中具有最高信息增益的属性test_attribute; (7) 以test_attribute标记节点N ; (8) for each test_attribute的已知值v //划分samples (9) 由节点N分出一个对应test_attribute=v的分支; (10) 令Sv为samples中test_attribute=v的样本集合; //一个划分块 (11) if Sv为空 then (12) 加上一个叶节点,以samples中最普遍的类标记; (13) else 加入一个由Decision_Tree(Sv, attribute_list–test_attribute)返回的节点。 信息熵 ID3算法采用基于信息熵定义的信息增益度量来选择内节点的测试属性。熵(Entropy)刻画了任意样本集的纯度。 设S是n个数据样本的集合,将样本集划分为c个不同的类Ci (i=1, 2,…, c),每个类Ci含有的样本数目为ni,则S划分为c个类的信息熵或期望信息为: 其中,pi为S中的样本属于第i类Ci的概率,即pi=ni /n。 信息熵(续) 熵值反映了对样本集合S分类的不确定性,也是对样本分类的期望信息。熵值越小,划分的纯度越高,对样本分类的不确定性越低。 一个属性的信息增益,就是用这个属性对样本分类而导致的熵的期望值下降。因此,ID3算法在每一个节点选择取得最大信息增益的属性。 期望熵 假设属性A的所有不同值的集合为Values(A),Sv是S中属性A的值为v的样本子集,即Sv={s?S?A(s)=v},在选择属性A后的每一个分支节点上,对该节点的样本集Sv分类的熵为E(Sv)。选择A导致的期望熵定义为每个子集Sv的熵的加权和,权值为属于Sv的样本占原始样本S的比例,即期望熵为: 其中,E(Sv)是将S v中的样本划分到c个类的信息熵。 信息增益 属性A相对样本集合S的信息增益Gain(S, A)定义为: Gain(S, A)=E(S)–E(S, A) Gain(S, A)是指因知道属性A的值后导致的熵的期望压缩。Gain(S, A)越大,说明选择测试属性A对分类提供的信息越多。Quinlan的ID3算法就是在每个节点选择信息增益Gain(S, A)最大的属性作为测试属性。 ID3算法的不足及改进 ID3算法存在的主要不足 过度拟合问题 处理连续属性值问题 处理缺少属性值问题 属性选择的度量标准问题 处理不同代价的属性问题 针对ID3的这些不足,ID3被扩展成为C4.5
您可能关注的文档
最近下载
- DMX512灯光调光控制程序.doc VIP
- 四种不同类型土壤保水剂保水性能的比较-生态学杂志.PDF VIP
- 2019年中央机关公开遴选和选调公务员笔试真题〔B卷完好版解析〕_党政公选考试公共科目题库_公共科目真题_模拟试题.docx VIP
- 北京市东城区汇文中学2023-2024学年七年级上学期月考数学试题(无答案).docx VIP
- 《有效复习》班队活动教案.doc VIP
- 四年级阅读理解专项训练可打印.docx VIP
- 法医考试题目及答案.doc VIP
- 《水泥胶砂保水率测定方法》GB_T 45002-2024.pdf
- USON介绍分析.ppt VIP
- 新学期小学英语开学第一课主题班会PPT课件.pptx VIP
文档评论(0)