- 1、本文档共61页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据分类-决策树
ID3算法的原理 期望信息 * ID3算法的原理 熵 熵值E(Af)越小,表示属性Af对数据集划分的纯度越高 * ID3算法的原理 信息增益 * ID3算法原理 选择具有较高信息增益的描述属性作为给定数据集X的分支属性,从而创建决策树中的一个节点 根据该描述属性的不同取值再创建分支 之后对各个分支中的样本子集递归调用上述方法建立下一级子节点 当某个分支上的所有数据样本都属于同一个类别时划分停止,形成叶节点 或者当某个分支上的样本不属于同一个类别,但是又没有剩余的描述属性可以进一步划分数据集时也形成叶节点,并且用多数样本所属的类别来标记这个叶节点 * ID3算法示例 该样本集中共 包含4个描述 属性和1个类别 属性,空间容量 为14 目标是利用ID3 思想构建一棵 可用于新样本 分类的决策树 * A1-公司职员 A2-年龄 A3-收入 A4-信誉度 C-买保险 否 =40 高 良 c2 否 =40 高 优 c2 否 41~50 高 良 c1 否 50 中 良 c1 是 50 低 良 c1 是 50 低 优 c2 是 41~50 低 优 c1 否 =40 中 良 c2 是 =40 低 良 c1 是 50 中 良 c1 是 =40 中 优 c1 否 41~50 中 优 c1 是 41~50 高 良 c1 否 50 中 优 c2 第1步:计算对训练集分类所需的期望信息 已知 total=14 c1(买保险)的样本数量是n1=9 c2(不买保险)的样本数量是n2=5 所以 P(c1)=9/14 P(c2)=5/14 根据期望信息公式可得 * 第2步:计算A1(公司职员)的熵 A1包含两种取值:“是”和“否” 利用A1可将X划分为两个子集X1和X2 X1中的数据样本都是公司职员(7个) 标号为c1的有6个,n11=6 标号为c2的有1个,n21=1 则可得 p11=6/7 p21=1/7 * A1-公司职员 C-买保险 否 c2 否 c2 否 c1 否 c1 是 c1 是 c2 是 c1 否 c2 是 c1 是 c1 是 c1 否 c1 是 c1 否 c2 第2步:计算A1(公司职员)的熵 利用A1可将X划分为两个子集X1和X2 X2中的数据样本都不是公司职员(7个) 标号为c1的有3个,n12=3 标号为c2的有4个,n22=4 则可得 p12=3/7 p22=4/7 * A1-公司职员 C-买保险 否 c2 否 c2 否 c1 否 c1 是 c1 是 c2 是 c1 否 c2 是 c1 是 c1 是 c1 否 c1 是 c1 否 c2 第2步:计算A1(公司职员)的熵 则计算出A1划分训练集所得的熵为 * 第3步:计算A1(公司职员)的信息增益 * 第4步:求出其他描述属性的信息增益 Gain(A2)=0.246 Gain(A3)=0.029 Gain(A4)=0.048 经比较可知Gain(A2)最大,所以选择A2(年龄)作为决策树的根节点 进一步将树划分为3个分支 * 第5步:根据根节点划分数据集 年龄=40的子集 在此子集内继续检查Gain(A1)、Gain(A3)、Gain(A4) 选取信息增益最大的描述属性作为内部节点 * A1-公司职员 A3-收入 A4-信誉度 C-买保险 否 高 良 c2 否 高 优 c2 否 中 良 c2 是 低 良 c1 是 中 优 c1 第5步:根据根节点划分数据集 年龄41~50的子集 该子集中所有样本的类别标号都一样,所以无需继续划分 可将它标注为一个叶节点,而且叶节点的类标号为c1 * A1-公司职员 A3-收入 A4-信誉度 C-买保险 否 高 良 c1 是 低 优 c1 否 中 优 c1 是 高 良 c1 第5步:根据根节点划分数据集 年龄50的子集 在此子集内继续检查Gain(A1)、Gain(A3)、Gain(A4) 选取信息增益最大的描述属性作为内部节点 * A1-公司职员 A3-收入 A4-信誉度 C-买保险 否 中 良 c1 是 低 良 c1 是 低 优 c2 是 中 良 c1 否 中 优 c2 ID3算法小结 使用ID3算法的基本思想是 采用自顶向下的递归方式,将原始样本空间划分成若干更小的样本空间 再对他们单独进行处理 其中,选择哪一个描述属性作为新建节点,依据是考察该描述属性的信息增益是否最大 * * ID3的不足(1/2) 使用信息增益作为属性选择依据 带有倾向性,倾向于选择取值较多的属性 ? 为什么? 一种可能的解释是:对于较难分类的集合,优先将样本分割到尽可能多的分支中将极大简化分类工作 * ID3的不足(2/2) 无法处理未知值的样本 对于个别样本缺失了某项描述属性的情况,无法处理
文档评论(0)