- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大连理工大学人工智能课程小论文
人工智能(小论文)专业: 计算机科学与技术 班级: 电计1203 学号: 201281303 姓名:刘阳知识发现及数据挖掘中的决策树方法及其应用概述摘要:决策树是一种用于分类、聚类和预测的预测型建模方法,对数据探查、分类等具有广泛的适应性。决策树以树形结构来表示决策集合,由叶节点代表类或者类分布。由预分类组成的训练集经过每一步最佳拆分生成决策树。拆分的纯度可以由基尼系数等方式衡量。为了获得稳定的决策树需要进行剪枝。引言:数据挖掘(Data Mining,DM)是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。而决策树是数据挖掘分类算法的一个重要方法。在各种分类算法中,决策树是最直观的一种正文:1.什么是数据挖掘与知识发现数据是我们收集和存储的,知识是帮助我们做决策的。从数据中提取知识称为数据挖掘。数据挖掘也可以定义为在大量数据中进行探索和分析,提取出有意义的模式和规则的过程。数据库中的知识发现是指从大量数据中辨识出有效的、新颖的、潜在有用的并可理解的模式的高级处理过程。可以看出,数据发现的最终目标是发现知识,而数据挖掘只是知识发现中的一个步骤。2.什么是决策树2.1决策树的定义决策树是一种用于分类、聚类和预测的预测型建模方法。决策树可以定义为推理过程的图,它是一个预测模型,代表的是对象属性与对象值之间的一种映射关系。决策树方法着眼于从一组无次序、无规则的实例中推理出分类规则,是一种直观的分类表示方法,同时也是高效的分类器,可以非常高效的产生分类规则。2.2.决策树的结构决策树以树形结构来表示决策集合,其中包括内部节点、分支和叶节点。决策树的每一个非终叶节点表示所考虑的数据项的测试或决策。一个确定分支的选择取决于测试的结果,代表一个测试输出,而每个叶节点代表类或者类分布。为了对数据集分类,从根节点开始,根据判定自顶向下,趋向终叶节点或叶节点。3.决策树的生成3.1发现拆分首先,有一个预分类记录组成的训练集,其中所有的目标变量值都是已知的。我们的任务是生成一棵树,基于输入变量的数值给新纪录的目标字段指派一个类。递归执行,我们在每一个节点按照单一输入字段的功能拆分纪录可以建立树,因而,在这里需要判断哪一个输入字段会产生最佳拆分。所谓最佳拆分,是指能够把记录很好的分割为不同的群组,是每个群组里的单个类成为主导。3.2生成完全树决策树建立算法通常始于在期望类别中试图发现能够最好的拆分数据的输入变量,即首次拆分产生两个或更多的子节点,然后以与根节点相同的方式继续拆分每一个子节点,在树的每一后继层,前一次拆分创建的子集本身按照最利于其工作的规则拆分,书继续生长,直到不可能发现更好的方法拆分新的记录。3.3决策树归纳这里列举一种决策树归纳的基本算法,是一种贪心算法。树以代表训练样本的单个节点开始如果样本都在同一个类,则该节点成为叶节点,并用该类标记否则,算法使用信息增益(一种基于熵的度量)或者基尼(也称整体发散性),选择能够最好的将样本分类的属性。将属性作为该节点的“测试”或“判定”属性。对测试属性的每个已知的值,创建一个分枝,并据此划分样本。使用同样的过程,递归的对每个划分上的样本生成样本决策树。当递归到以下条件之一成立时停止给定节点的所有样本属于同一类没有剩余的属性可以用于进一步的划分样本分枝没有样本3.4选择最佳拆分的测试如3.1中所说,最佳拆分是指能够把记录很好的分割为不同的群组,是每个群组里的单个类成为主导。那么,我们需要引入一个评价可能拆分的度量——纯度。低纯度意味着该集合包含了各个类的典型分布,而高纯度意味着但各类别的成员占主流。用于评价拆分分类目标变量的纯度度量包括:基尼(也称总体发散性)熵(也称信息增益)信息增益比率卡方检验这些方法的具体使用超出了本文的范围,也超出了笔者的知识水平,有意者可以翻阅相关书籍,如参考文献[5];另外还有一些拆分方法,如参考文献[3]中基于粗糙集的方法。4决策树的剪枝4.1为什么要进行剪枝如前所述,只要能找到新的拆分,能够改善把训练集中的记录分割为更纯的子集的能力,决策树就会继续长高。这样的决策树已针对训练集进行优化,因而去掉任何叶节点都会增加该树在训练集上的误差率。但是事实上,并非完整的树一定是最好的分类工具。决策树算法首先在有大量记录的根节点处做出最好的拆分,随着节点变得越来越小,一个节点上特定训练记录的特性开始支配该过程。可以这么理解,一棵树在大节点处发现通用
文档评论(0)