- 1、本文档共62页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第4章 节 分类方法(new) 数据挖掘课件.ppt
合并具有连续值的属性,对于连续属性值,C4.5其处理过程如下: 根据属性的值,对数据集排序; 用不同的阈值将数据集动态的进行划分; 当输出改变时确定一个阈值; 取两个实际值中的中点作为一个阈值; 取两个划分,所有样本都在这两个划分中; 得到所有可能的阈值、增益及增益比; 在每一个属性会变为取两个取值,即小于阈值或大于等于阈值。 简单地说,针对属性有连续数值的情况,则在训练集中可以按升序方式排列。如果属性A共有n种取值,则对每个取值vj(j =1,2,… ,n),将所有记录进行划分:一部分小于vj;一部分则大于或等于vj 。针对每个vj计算划分对应的增益比率,选择增益最大的划分对属性A进行离散化 。 处理含有未知属性值的训练样本 C4.5处理的样本中可以含有未知属性值,其处理方法是用最常用的值替代或者是将最常用的值分在同一类中。具体采用概率的方法,依据属性已知的值,对属性和每一个值赋予一个概率,取得这些概率,取得这些概率依赖于该属性已知的值。 规则的产生 一旦树被建立,就可以把树转换成if-then规则。规则存储于一个二维数组中,每一行代表树中的一个规则,即从根到叶之间的一个路径。表中的每列存放着树中的结点。 C4.5算法例子 样本数据 Outlook Temperature Humidity Wind PlayTennis Sunny Hot 85 false No Sunny Hot 90 true No Overcast Hot 78 false Yes Rain Mild 96 false Yes Rain Cool 80 false Yes Rain Cool 70 true No Overcast Cool 65 true Yes Sunny Mild 95 false No Sunny Cool 70 false Yes Rain Mild 80 false Yes Sunny Mild 70 true Yes Overcast Mild 90 true Yes Overcast Hot 75 false Yes Rain Mild 80 true No Outlook(离散属性) Temperature(离散属性) Humidity(连续属性) Wind(离散属性) PlayTennis(类别属性) (1)首先对Humidity进行属性离散化,针对上面的训练集合,通过检测每个划分而确定最好的划分在75处,则这个属性的范围就变为{(=75 ,75)}。 (2)计算目标属性Humidity分类的期望信息: 接下来计算属性Outlook的SplitI值: 对于Outlook=Sunny,有 对于Outlook=Sunny,有 对于Outlook=Sunny,有 对于决策属性PlayTennis来说,计算Outlook属性每个分布的期望信息 选取最大的GainRatio,根据Outlook的取值,可以得到三个分支。再扩展各分枝节点,得到最终的决策树。 因此,可得到Outlook属性的熵: 对应的信息增益为: 最后得到信息增益比例为: 0.0483 Humidity) GainRatio( = 0.0248 e) Temperatur GainRatio( = ; 049 . 0 ) ( = ; windy GainRatio 同理,可计算出 Temperature Humidity Wind PlayTennis Hot >75 false No Hot >75 true No Mild >75 false No Cool ≤75 false Yes Mild ≤75 true Yes Temperature Humidity Wind PlayTennis Mild >75 false Yes Cool >75 false Yes Cool ≤ 75 true No Mild > 75 false Yes Mild > 75 true No Temperature Humidity Wind PlayTennis Hot >75 false Yes Cool ≤ 75 true Yes Mild >75 true Yes Hot ≤75 false Yes =Rain Outlook? =Sunny =Overcast T1 T3 T2 对于第一棵子树, 1 Humidity) GainRatio( = 0.244 e) Temperatur GainRatio( = ; 0206 . 0 ) ( = ; windy GainRatio ,选择Humidity作为决策属性,得到两个叶结点。 对于第二棵子树,所有样本都
您可能关注的文档
- 第4章 节 Excel轻松领入门 中文版Office 2003.pptx
- 第4章 节 SQL的应用VFP第3版.pptx
- 第4章 节 _Android生命周期.ppt
- 第4章 节 __现代物流学__课件__叶怀珍主编.ppt
- 第4章 节 _定位系统v1.1 物联网 .ppt
- 第4章 节 _目标规划 运筹学ppt.ppt
- 第4章 节 PWM控制及其变异 电力电子与电机系统分析基础 .ppt
- 第4章 节 三相交流电路及安全用电常识 电工学(上册)课件.ppt
- 第4章 节 交流绕组 《电机学(少学时)》课件.pptx
- 第4章 节 土地使用的获取和开发前期准备 房地产开发与经营(第2版) 电子教案.ppt
- 2025北京市园林绿化局所属事业单位定向招聘合同期满乡村振兴协理员考试备考题库及答案解析.docx
- 2025年大庆市人民医院聘用制护士招聘若干名考试备考题库及答案解析.docx
- 统编版高中语文选择性必修上册《人皆有不忍人之心》教学设计.docx
- 2025广西南宁供电局短期项目资料员招聘56人考试备考题库及答案解析.docx
- 2025年德州市德城区公立医院公开招聘备案制工作人员(140名)考试备考题库及答案解析.docx
- 2025年河北沧州海兴县职业技术教育中心公开招聘合同制教师25名考试备考题库及答案解析.docx
- 2025湖州德清县教育局公开招聘义务段教师73人考试备考题库及答案解析.docx
- 2025北京市园林绿化局所属事业单位招聘出站博士后人员考试备考题库及答案解析.docx
- 2025内蒙古通辽市库伦旗乌兰牧骑招聘演职人员5人考试备考题库及答案解析.docx
- 2025湖州长兴县洪桥镇人民政府下属事业单位选调事业编制人员1人考试备考题库及答案解析.docx
最近下载
- 悦纳自己——爱自己的100种方式(课件)高一下学期心理健康课(通用版).pptx VIP
- 浙江省消防技术规范难点问题操作技术指南-2025修订稿(定稿).docx
- 再生医学技术:2025年关节软骨修复研究前沿报告.docx
- 《电梯监督检验和定期检验规则》(TSG T7001-2023).docx VIP
- T CNAS 32─2023 注射相关感染预防与控制.pdf VIP
- 罗宾斯组织行为学第18版中文ppt1.pptx VIP
- 浙商中拓(000906)公司2023年财务分析研究报告.pdf
- 食材食品质量问题退换货方案.docx VIP
- 智能找车系统(数字1对1)调试手册.doc VIP
- 工业智能控制.pdf VIP
文档评论(0)