C算法生成决策树的研究.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

算法生成决议树

1、基础知识

当我们需要对一个随机事件的概率散布进行展望时,我们的展望应该知足所有已知的条件,而对未知的情

况不要做任何主观假定。在这类状况下,概率散布最均匀,展望的风险最小。因为这时概率散布的信息熵最大,

所以称之为“大熵法”最大熵法在数学形式上很美丽,可是实现起来比较复杂,但把它运用于金融领域的迷惑

也比较大,比方说决定股票涨落的要素可能有几十甚至上百种,而最大熵方法恰好能找到一个同时知足成千上

万种不一样条件的模型。

当前,针对分类问题已有了若干不一样领域方法的算法,比如统计学、机器学习、神经网络和粗拙集理论等。

此中从机器学习中引出的决议树方法是一种较为通用并被深入研究的分类方法,因为决议树分类算法是一种直

观迅速的分类方法,它的分类过程不需要背景知识、而且清楚、易于理解,所以有很大的适用价值。当前已经

形成了多种决议树算法。如CLS、ID3、CHAID、CART、FACT、、Gini、SEE5、SLIQ、SPRINT等。

在决议树分类算法中,最常用的、最经典的是算法,它继承了ID3算法的长处并对ID3算法进行了改良和

增补。算法采纳信息增益率作为选择分支属性的标准,战胜了ID3算法中信息增益选择属性时倾向选择取值多

的属性的不足,并能够达成对连续属性失散化的办理,还可以够对不完好数据进行办理。依据切割方法的不一样,

当前决议的算法能够分为两类:鉴于信息论(InformationTheory)的方法和最小GINI指标(LowestGINI

index)方法。对应前者的算法有ID3、,后者的有CART、SLIQ和SPRINT。

算法是以信息论为基础,以信息熵和信息增益度为权衡标准,进而实现对数据的概括分类。

2、算法

以下列图数据为例,介绍用成立决议树的算法。

表1

室外温度室内温度室外湿度风力机房楼机房朝向(0:机房开启设施总

大小层阴,1:阳)额定功率(千瓦)

231765410500

241762221450

2718603-10300

241958320300

251852211450

2618505-11500

301945221450

281843310450

2718483-10500

291840410500

ID3算法最先假定属性都是失散值,但在实质应用中,好多属性值都是连续的。对ID3不可以办理连续型属

性的弊端进行了改良。假如存在连续型的描绘性属性,第一将连续型属性的值分红不一样的区间,即“失散化”。

对上表中将实质耗电量分为10个区间(0—9)

文档评论(0)

151****1215 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档