- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘实验2
数据挖掘实验2 ——决策树分类 数据挖掘实验2(30’) 实验目的:了解关联规则在数据挖掘中的应用,理解和掌握分类经典算法ID3 OR C4.5算法的算法的基本原理和执行过程并完成程序设计。 实验内容:对给定数据集用ID3算法进行挖掘,生成相应的决策树并生成规则。对下面数据集进行挖掘: 数据挖掘实验2(30’) 实验要求:可以用JAVA、C++或C语言实现。 实验背景知识 样本数据 * 决策树表示与例子 决策树(Decision Tree)的每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶结点代表类或类分布。树的最顶层结点是根结点。 buys_computer的决策树示意 为什么以年龄作为根节点来划分? How to Find the Best Split B? Yes No Node N3 Node N4 A? Yes No Node N1 Node N2 Before Splitting: M0 M1 M2 M3 M4 M12 M34 Gain = M0 – M12 vs M0 – M34 Alternative Splitting Criteria based on INFO Entropy(熵) at a given node t: (NOTE: p( j | t) is the relative frequency of class j at node t). Measures homogeneity of a node. Maximum (log nc) when records are equally distributed among all classes implying least information Minimum (0.0) when all records belong to one class, implying most information Examples for computing Entropy P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 Entropy = – 0 log2 0 – 1 log2 1 = – 0 – 0 = 0 P(C1) = 1/6 P(C2) = 5/6 Entropy = – (1/6) log2 (1/6) – (5/6) log2 (1/6) = 0.65 P(C1) = 2/6 P(C2) = 4/6 Entropy = – (2/6) log2 (2/6) – (4/6) log2 (4/6) = 0.92 Splitting Based on INFO... Information Gain: Parent Node, p is split into k partitions; ni is number of records in partition i Splitting Based on INFO... Measures Reduction in Entropy achieved because of the split. Choose the split that achieves most reduction (maximizes GAIN) Used in ID3 and C4.5 Disadvantage: Tends to prefer splits that result in large number of partitions, each being small but pure. 小结 在决策树归纳方法中,通常使用信息增益方法来帮助确定生成每个结点时所应采用的合适属性。 这样就可以选择具有最高信息增益(熵减少的程度最大)的属性作为当前结点的测试属性,以便使对之后所划分获得的训练样本子集进行分类所需要信息最小。 注:对于人的理解来说,越是具体的信息(信息增加了),而熵越小。 小结 也就是说,如果该属性导致具有最高的信息增益,那么对该属性进行当前(结点所含)样本集合划分,将会使得所产生的各样本子集中的“不同类别混合程度”降为最低(换句话说,就是越相互区分的开!)。 因此采用这样一种信息论方法将帮助有效减少对象分类所需要的次数,从而确保所产生的决策树最为简单,尽管不一定是最简单的。 举例说明 假设按年龄来划分 This is the reason why choose “age”as the split for partition the training set! * ID3算法 ID3是Quinlan提出的一个著名决策树生成方法: 决策树中每一个非叶结点对应着一个非类别属性,树枝代表这个属性的值。一
原创力文档


文档评论(0)