第5章数据分类概要.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章数据分类概要

* * * * * * * * * * Data Mining Tool - Decision Tree, Jiahuang Ji, Ph.D. All Rights Reserved * 1. 假定选择信誉作树根节点,则: 良好组: I(480,192)=0.8631 优秀组: I(161,191)=0.9948 2. 良好组比例: 672/1024=0.6563 优秀组比例: 352/1024=0.3437 3. 平均信息期望(加权总和): E(信誉)= 0.6563 * 0.8631 + 0.3437 * 0.9948 = 0.9048 4. Gain(信誉) = I(641, 383)-E(信誉) =0.9537 – 0.9048= 0.0453 计数 年龄 收入 学生 信誉 归类:买计算机? 64 青 高 否 优 不买 64 老 低 是 优 不买 64 中 低 是 优 买 64 青 中 是 优 买 32 中 中 否 优 买 63 老 中 否 优 不买 1 老 中 否 优 买 计数 年龄 收入 学生 信誉 归类:买计算机? 64 青 高 否 良 不买 128 中 高 否 良 买 60 老 中 否 良 买 64 老 低 是 良 买 128 青 中 否 良 不买 64 青 低 是 良 买 132 老 中 是 良 买 32 中 高 是 良 买 决策树的建立-- 对测试样例的信息期望 * Data Mining Tool - Decision Tree, Jiahuang Ji, Ph.D. All Rights Reserved * 决定树根节点 E(年龄)= 0.6877, Gain(年龄) = 0.2660 E(收入)= 0.9361,Gain(收入) = 0.0176 E(学生)= 0.7811,Gain(学生) = 0.1726 E(信誉)= 0.9048,Gain(信誉) = 0.0453 决策树的建立-- 对测试样例的信息期望 * Data Mining Tool - Decision Tree, Jiahuang Ji, Ph.D. All Rights Reserved * 年龄 计数 收入 学生 信誉 归类:买计算机? 64 高 否 良 不买 64 高 否 优 不买 128 中 否 良 不买 64 低 是 良 买 64 中 是 优 买 计数 收入 学生 信誉 归类:买计算机? 60 中 否 良 买 64 低 是 良 买 64 低 是 优 不买 132 中 是 良 买 63 中 否 优 不买 1 中 否 优 买 青 中 老 树叶 计数 收入 学生 信誉 归类:买计算机? 128 高 否 良 买 64 低 是 优 买 32 中 否 优 买 32 高 是 良 买 决策树的建立-- 对测试样例的信息期望 * Data Mining Tool - Decision Tree, Jiahuang Ji, Ph.D. All Rights Reserved * 年龄 计数 收入 学生 信誉 归类:买计算机? 64 高 否 良 不买 64 高 否 优 不买 128 中 否 良 不买 64 低 是 良 买 64 中 是 优 买 计数 收入 学生 信誉 归类:买计算机? 60 中 否 良 买 64 低 是 良 买 64 低 是 优 不买 132 中 是 良 买 63 中 否 优 不买 1 中 否 优 买 青 中 老 买 决策树的建立-- 对测试样例的信息期望 * Data Mining Tool - Decision Tree, Jiahuang Ji, Ph.D. All Rights Reserved * 计数 收入 学生 信誉 归类:买计算机? 64 高 否 良 不买 64 高 否 优 不买 128 中 否 良 不买 64 低 是 良 买 64 中 是 优 买 平均信息期望(加权总和): E(收入)= 0.3333 * 0 + 0.5 * 0.9183 + 0.1667 * 0 = 0.4592 Gain(收入) = I(128, 256) - E(收入)=0.9183 – 0.4592 = 0.4591 计数 收入 学生 信誉 归类:买计算机? 64 高 否 良 不买 64 高 否 优 不买 计数 收入 学生 信誉 归类:买计算机? 128 中 否 良 不买 64 中 是 优 买 计数 收入 学生 信誉 归类:买计算机? 64 低 是 良 买 青年组数据表分析: 1. 假定选择收入作节点 I(128,256) = 0.9183 I(0,

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档