数据分类-决策树.pptVIP

下载本文档

7
0
约6.98千字
约 61页
2016-01-20 发布于贵州
举报
版权申诉

数据分类-决策树.ppt

1、本文档共61页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据分类-决策树

ID3算法的原理期望信息 * ID3算法的原理熵熵值E(Af)越小，表示属性Af对数据集划分的纯度越高 * ID3算法的原理信息增益 * ID3算法原理选择具有较高信息增益的描述属性作为给定数据集X的分支属性，从而创建决策树中的一个节点根据该描述属性的不同取值再创建分支之后对各个分支中的样本子集递归调用上述方法建立下一级子节点当某个分支上的所有数据样本都属于同一个类别时划分停止，形成叶节点或者当某个分支上的样本不属于同一个类别，但是又没有剩余的描述属性可以进一步划分数据集时也形成叶节点，并且用多数样本所属的类别来标记这个叶节点 * ID3算法示例该样本集中共包含4个描述属性和1个类别属性，空间容量为14 目标是利用ID3 思想构建一棵可用于新样本分类的决策树 * A1-公司职员 A2-年龄 A3-收入 A4-信誉度 C-买保险否 =40 高良 c2 否 =40 高优 c2 否 41~50 高良 c1 否 50 中良 c1 是 50 低良 c1 是 50 低优 c2 是 41~50 低优 c1 否 =40 中良 c2 是 =40 低良 c1 是 50 中良 c1 是 =40 中优 c1 否 41~50 中优 c1 是 41~50 高良 c1 否 50 中优 c2 第1步：计算对训练集分类所需的期望信息已知 total=14 c1(买保险)的样本数量是n1=9 c2(不买保险)的样本数量是n2=5 所以 P(c1)=9/14 P(c2)=5/14 根据期望信息公式可得 * 第2步：计算A1（公司职员）的熵 A1包含两种取值：“是”和“否” 利用A1可将X划分为两个子集X1和X2 X1中的数据样本都是公司职员（7个）标号为c1的有6个，n11=6 标号为c2的有1个，n21=1 则可得 p11=6/7 p21=1/7 * A1-公司职员 C-买保险否 c2 否 c2 否 c1 否 c1 是 c1 是 c2 是 c1 否 c2 是 c1 是 c1 是 c1 否 c1 是 c1 否 c2 第2步：计算A1（公司职员）的熵利用A1可将X划分为两个子集X1和X2 X2中的数据样本都不是公司职员（7个）标号为c1的有3个，n12=3 标号为c2的有4个，n22=4 则可得 p12=3/7 p22=4/7 * A1-公司职员 C-买保险否 c2 否 c2 否 c1 否 c1 是 c1 是 c2 是 c1 否 c2 是 c1 是 c1 是 c1 否 c1 是 c1 否 c2 第2步：计算A1（公司职员）的熵则计算出A1划分训练集所得的熵为 * 第3步：计算A1（公司职员）的信息增益 * 第4步：求出其他描述属性的信息增益 Gain(A2)=0.246 Gain(A3)=0.029 Gain(A4)=0.048 经比较可知Gain(A2)最大，所以选择A2（年龄）作为决策树的根节点进一步将树划分为3个分支 * 第5步：根据根节点划分数据集年龄=40的子集在此子集内继续检查Gain(A1)、Gain(A3)、Gain(A4) 选取信息增益最大的描述属性作为内部节点 * A1-公司职员 A3-收入 A4-信誉度 C-买保险否高良 c2 否高优 c2 否中良 c2 是低良 c1 是中优 c1 第5步：根据根节点划分数据集年龄41~50的子集该子集中所有样本的类别标号都一样，所以无需继续划分可将它标注为一个叶节点，而且叶节点的类标号为c1 * A1-公司职员 A3-收入 A4-信誉度 C-买保险否高良 c1 是低优 c1 否中优 c1 是高良 c1 第5步：根据根节点划分数据集年龄50的子集在此子集内继续检查Gain(A1)、Gain(A3)、Gain(A4) 选取信息增益最大的描述属性作为内部节点 * A1-公司职员 A3-收入 A4-信誉度 C-买保险否中良 c1 是低良 c1 是低优 c2 是中良 c1 否中优 c2 ID3算法小结使用ID3算法的基本思想是采用自顶向下的递归方式，将原始样本空间划分成若干更小的样本空间再对他们单独进行处理其中，选择哪一个描述属性作为新建节点，依据是考察该描述属性的信息增益是否最大 * * ID3的不足（1/2）使用信息增益作为属性选择依据带有倾向性，倾向于选择取值较多的属性 ? 为什么？一种可能的解释是：对于较难分类的集合，优先将样本分割到尽可能多的分支中将极大简化分类工作 * ID3的不足（2/2）无法处理未知值的样本对于个别样本缺失了某项描述属性的情况，无法处理