数据挖掘概念与技术课程报告.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘概念与技术课程报告

数据挖掘概念与技术 课程报告 题目:关于决策树算法的分析和研究——ID3算法改进的分析 班号: 0111 学号: 201110012 姓名: YYY 关于决策树算法的分析和研究 ——ID3算法改进的分析 摘要:ID3算法被誉为数据挖掘技术中十大经典算法之一,它的提出可以说是在数据挖掘界中的一次新的革命,在很多行业中用此算法进行决策分析,都取得了很好的效益回报,但在实际应用中也暴露了该算法的诸多不足。本文参自几篇关于ID3算法改进的论文、报告以及教材,并进行了认真学习,通过自己的理解,将ID3算法和改进ID3算法分析过程进行综述,利用案例对改进后的算法进行理解,同时指出自己对此算法的观点。 关键字:ID3算法 C4.5算法 信息增益 信息增益率 一、决策树的产生与应用 分类是数据挖掘中经典的数据分析方式,典型的操作方式是先从训练集中建立分类器,然后利用检验数据对分类器进行评估。即分为学习和分类两个步骤。 决策树(Decision Tree)是用于分类和预测的主要技术。它着眼于从一组无规则的事例推理出决策树表示形式的分类规则,采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同属性判断从该节点向下分支,在决策树的叶节点得到结论,典型的算法有ID3、C4.5和CART等。决策树的分类模型有如下几个特点: (1).决策树方法结构简单,便于理解; (2).决策树模型效率高,对训练集较大的情况较为适合; (3).决策树方法通常不需要接受训练集数据外的知识; (4).决策树方法具有较高的分类精确度。 它最早产生于二十世纪60年代,是由Hunt等人研究人类概念建模时建立的学习系统(CLS,Concept Learning System),到70年代末,J.Ross Quinlan提出ID3算法。此算法的目的在于减少树的深度,但是忽略了叶子数目的研究。1975年和1984年,分别有人提出CHAID(Chi-squared Automatic Interaction Detection)和CART(Classification and Regression Tree,亦称BFOS)算法。1986年,J.C.Schlimmer提出ID4算法。1988年,P.E.Utgoff提出ID5R算法。1993年,Quinlan本人以ID3算法为基础研究出C4.5/C5.0算法,C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大的改进,既适合于分类问题,又适合于回归问题。本文主要分析的是ID3算法改进。 决策树算法在医学、制造和生产、金融分析、天文学、遥感影像分类和分子生物学、机器学习和知识发现等领域都得到了广泛应用。 二、ID3算法的实现 决策树算法采用了贪心的方法,以自顶向下的的分治方式,从训练元组集和它们相关联的类标号开始构造决策树。随着树的构建,训练集递归地划分成较小的子集。由J.Ross Quinlan研究开发的决策树算法,也称作ID3算法,与其他决策树算法类似,其基本算法如下: 算法:Generate-tree。由数据划分D的训练元组产生决策树。 输入: 数据划分D是训练元组和对应类标号的集合; Attribute-list,候选属性的集合; Attribute-selection-method,一个确定“最好”地划分数据元组为个体类的分裂准则的过程,这个准则由分裂属性和分裂点或分裂子集组成。 输出:一棵决策树 方法: (1) 创建一个节点N; (2) ifD中的元组都是同一类C then (3) return N作为叶节点,以类C标记; (4) Ifattribute-list为空 then (5) return N 作为叶节点,标记为D中的多数类(最普通的类); (6) 使用attribute-selection-method(D,attribute-list),找出“最好”的splitting-criterion; (7) 用splitting-criterion标记节点N; (8) if splitting-attribute是离散的并且允许多路划分 then (9) attribute-list=attribute-list减splitting-attribute; (10) for splitting-criterion的每个输出j (11) 设Dj是D中满足输出j的数据元组的集合; (12) if Dj为空 then (13) 加一个树叶到节

文档评论(0)

zhanghc + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档