决策树算法及应用.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树算法及应用

决策树算法及应用 数 一 决策树算法简介[1][6][8] 决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用于对新集进行预测。决策树算法可设计成具有良好可伸缩性的算法,能够很好地与超大型数据库结合,处理相关的多种数据类型,并且,其运算结果容易被人理解,其分类模式容易转化成分类规则。因此,在过去的几十年中,决策树算法在机器学习(machine learning)和数据挖掘( data mining) 领域一直受到广泛地重视。 决策树算法以树状结构表示数据分类的结果。树的非叶结点表示对数据属性(at tribute) 的测试。每个分枝代表一个测试输出,而每个叶结点代表一个分类。由根结点到各个叶结点的路径描述可得到各种分类规则。目前有多种形式的决策树算法。其中最值得注意的是CART 和ID3/ C4. 5 。许多其它的算法都是由它们演变而来。下面介绍决策树算法ID3 (Quinlan ,1979) 在实际中的一例应用。 决策树算法ID3 使用信息增益( Information Gain)作为选择属性对节点进行划分的指标。信息增益表示系统由于分类获得的信息量,该量由系统熵的减少值定量描述。熵(Entropy) 是一个反映信息量大小的概念。最终信息增益最高的划分将被作为分裂方案。 决策树和决策规则是实际应用中分类问题的数据挖掘方法。决策树表示法是应用最广泛的逻辑方法,它通过一组输入-输出样本构建决策树的有指导的学习方法。 对于分类决策树来说,需要先对原始资料来进行分类训练,经由不断的属性分类后,得到预期的分类结果。判定树归纳的基本算法是贪心算法,它采用自上而下、分而治之的递归方式来构造一个决策树。ID3 算法是一种著名的判定树归纳算法,伪代码如下: Function Generate_decision_tree(训练样本samples,候选属性attribute list){ 创建节点N: if samples 都在同一个类C then 返回N 作为叶节点,以类C 标记; if attribute_list 为空then 返回N 为叶节点,标记为samples 中最普通类: //多数表决定选 择attribute_list 中有最高信息增益的属性test_attribute: 标记节点N 为test_attribute; for each test_attribute 中的已知位ai //划分samples 由节点N 长出一个条件为test_attribute=ai 的分枝; 设Si 是samples 中test attribute=ai 样本的集合; //一个划分 If Si 为空then 加上一个树叶,标记为samples 中最普通的类; Else 加上一个由Generate_desdecision_tree(Si,attribute_list_test_ attribute)返回的节点:} 在树的每个节点上使用具有最高信息增益的属性作为当前节点的测试属性。该属性使得对结果划分中的样本分类所需的信息量最小,并确保找到一棵简单的树。 二 数据挖掘技术的基本概念[7][10] 数据挖掘是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。它所挖掘出的规则蕴涵了数据库中一组对象之间的特定关系,揭示出了许多有用的信息,为经营决策、市场策划、金融预测等提供依据。通过数据挖掘,有价值的知识、规则或高层次的信息能从数据库的相关数据集合中抽取出来,并从不同的角度显示,从而使大型数据库成为一个丰富可靠的资源,为知识归纳服务。数据挖掘发现的知识通常是以概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)、约束(Constraints)、可视化(Visualizations)等形式表现。这些知识可以直接提供给决策者,用以辅助决策过程,或者提供给领域专家,修正专家已有的知识体系,也可以作为新知识转存到相应系统的知识存储机构中,比如专家系统(Expert System)、规则库等(Rule Base)。数据挖掘应用领域的不断扩展,为数据挖掘的发展带来了蓬勃的生机。 三 决策树在许多领域的应用 基于决策树C4.5算法的我国商业银行信用风险评估模型实证分析[2][5] 1.实证分析的样本来源 本文从某银行的信息系统中随机抽取了某行业( 2004 年) 100 个贷款企业的资料作为建模样本,其中有81 个企业的财务数据资料完整, 可以作为分析研究的对象。在这81 个企业中有64 个企业贷款履约, 17 个企业贷款违约, 不良贷款率为20.1%, 与该行业的整体贷款不良率非常接近, 因此, 随机抽取的81 个企业财务资料具有代表性, 可以用此样本对总体进行

您可能关注的文档

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档