- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树的归.doc
age income student credit_rating buys_computer =30 high no fair no =30 high no excellent no 30…40 high no fair yes 40 medium no fair yes 40 low yes fair yes 40 low yes excellent no 31…40 low yes excellent yes =30 medium no fair no =30 low yes fair yes 40 medium yes fair yes =30 medium yes excellent yes 31…40 medium no excellent yes 31…40 high yes fair yes 40 medium no excellent no
表6-1 一个商场顾客数据库()训练样本集合
训练数据集
决策树的归纳描述
例6.2判定树归纳。表6-1给出了取自AllElectronics顾客数据库数据元组
训练集。类标号属性buys_computer有两个不同值(即,{yes,no}),因此
有两个不同的类(m=2)。设类C1对应于yes,而类C2对应于no。类yes有
9个样本,类no有5个样本。
为计算每个属性的信息增益,我们首先使用公式,计算对给定样本
分类所需的期望信息:
决策树的归纳描述
下一步,我们需要计算每个属性的熵。从属性age开始。需要观察
age的每个样本值的yes和no分布。我们对每个分布计算期望信息。
对于age=”=30” s11=2 s21=3 I(s11,s21)=0.971
对于age=”31...40” s12=4 s22=0 I(s12,s22)=0
对于age=”40” s13=3 s23=2 I(s13,s23)=0.971
如果样本按age划分,对一个给定的样本分类所需的期望信息为:
因此,这种划分的信息增益是
可以计算Gain(income)=0.029,Gain(student)=0.151和Gain(credit_rating)=0.048。由于age在属性中具有最高信息增益,它被选作测试属性。
决策树的归纳描述
创建一个结点,用age标记,并对于每个属性值,引出一个分支。样本据此划分,如图6.4所示。注意,落在分区age=“31...40”的样本都属于同一类。由于它们都属于同一类yes,因此要在该分枝的端点创建一个树叶,并用yes标记。算法返回的最终判定树如图7.2所示。
由决策树提取分类规则
例6.3由判定树产生分类规则。
沿着由根结点到树叶结点的路经,图6.2的决策树可以转换
成IF-THEN分类规则。由图6.2提取的规则是:
IF age=”=30”AND student=“no” THEN buys_computer=“no”
IF age=”=30”AND student=“yes” THEN buys_computer=“yes”
IF age=”31...40” THEN buys_computer=“yes”
IF age=”40”AND credit_rating=“excellent” THEN buys_computer=“yes”
IF age=”40”AND credit_rating=“fair” THEN buys_computer=“no”
假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):
4,8,9,15, 21,21,22,24, 24,24,24,28, 28,28,29,31,31,31,31,35, 35,35,36,42, 45,46,53,72。
(1)使用按箱平均值平滑对以上数据进行平滑,箱的深度为4。
(2)使用最大最小规范化方法,将age值35转换到[0.0,1.0]区间。(计算结果保留两位小数)
假定用于分析的数据包含属性price。数据元组中price的值如下(按递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,
原创力文档


文档评论(0)