- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[工学]第3章决策树-8
例:学生膳食结构和缺钙情况调查表 生成的决策树之一 生成的决策树之二 决策树的“修剪(pruning ) 作业: Bill是一家著名网球俱乐部的经理。但是他被雇员数量问题搞得心情十分不好。某些天好像所有人都来打网球,以至于所有员工都忙的团团转还是应付不过来,而有些天不知道什么原因却一个人也不来,俱乐部为雇员数量浪费了不少资金。 Bill的目的是通过下周天气预报寻找什么时候人们会打网球,以适时调整雇员数量。 树的修剪过程 令α =0,从T1=T(0)开始,这里的T(0)就是最大树Tmax; 逐渐增大α ,直到某个节点使得 成立,将它的分支删除,得到T2; 重复上一步骤,直到被修剪到只有一个根节点,从而得到一个树的序列T1,T2,…,Tk。 子树评估 要找到一棵分类准确性最好、同时节点数量尽量少的树 计算每一棵子树的误分类损失: 3.3.4 在Clementine中应用CART 根据调查数据构建一个分类树模型,来预测哪些客户有意向订购一个电视新闻服务。 数据集存放在文件 \clementine12.0\Demos\NewsChan.sav中,是Clementine的自带文件。该数据集的属性包括: EDUCATE(受教育年限) GENDER(性别) AGE(年龄) TVDAY(每天看电视的时间长度) ORGS(组织编号) CHILDS(孩子的个数) INC(收入) NEWSCHAN(类标号属性,表示是否愿意订购有线新闻服务) 数据流 分类结果 对决策树的分析 指数提升图 设S代表训练数据集,由s个样本组成。A是S的某个属性,有m个不同的取值,根据这些取值可以把S划分为m个子集,Si表示第i个子集(i=1,2,…,m),|Si|表示子集Si中的样本数量。那么: 称为“数据集S关于属性A的熵”。 用来衡量属性A分支数据集的广度和均匀性。样本在属性A上的取值分布越均匀,Split_Info(S,A)的值就越大。 增益比例的定义为: 增益比例消除了选择那些值较多且均匀分布的属性作为分支属性的倾向性。 连续属性的处理 设属性Y有m个不同的取值,按大小顺序升序排列为v1v2,…,vm。 从{v1,v2,…, vm-1}中选择一个vi作为阈值,则可以根据“Y≤vi”和“Y vi”将数据集划分为两个部分,形成两个分支。显然, {v1,v2,…, vm-1}就是可能的阈值的集合,共(m-1)个元素。 把这些阈值一一取出来,并根据“Y≤vi”和“Y vi”把训练数据集划分为两个子集,并计算每一种划分方案下的信息增益或增益比例,选择最大增益或增益比例所对应的那个阈值,作为最优的阈值。 可以看出,如果选择连续属性作为分支属性,则分支后只有两个分支,而不象离散属性那样可能会有多个分支(由离散属性的取值个数决定)。 如果要计算“年龄”属性的信息增益,则首先将不同的属性值排序{20,25,28,40,46,55,56,58,60,65,70} 那么可能的阈值集合为{20,25,28,40,46,55,56,58,60,65},从中一一取出,并形成分支谓词,例如取出“20”,形成谓词“≤20”和“20”,用它们划分训练数据集,然后计算信息增益或增益比例。 处理有缺失值的样本 C4.5并不会武断地将一个有缺失值的样本抛弃,也不会随意地将它分配到某个类别中去。 “收入水平”的值,取为“高”的概率为3/12,取为“中”的概率为5/12,取为“低”的概率为4/12,收入水平中有二个缺失值。 S1(收入水平=“高”)的样本数量为:3+2×(3/12); 3.2.3 C5.0 C5.0是C4.5的商业版本,精确算法未公开 C5.0在空间和时间复杂度上有重大改进 C5.0引进了推进(Boosting)方法,改进精度:按序列建立多重模型,第一个模型以通常的方式建立,第二个模型聚焦于被第一个模型错误分类的记录,第三个模型聚焦于被第二个模型错误分类的记录。 3.2.4 在Clementine中应用C5.0 用C5.0算法对某银行的信贷历史记录进行数据挖掘的案例,通过构建决策树并形成规则,为银行的信贷服务提供决策支持。目标是要找出银行批准或否决贷款人的信用申请的标准。 数据存放在文件crx.data中。一共包含690个样本,16个属性。由于商业保密的缘故,属性名称用A1,A2,…,A16来表示,其中A16是类标号属性,有两个取值:“+”和“﹣”,“+”表示信贷申请被通过,“﹣”表示信贷申请被否决。用“写字板”可以打开crx.data文件。需要注意的是,一些属性的值为“?”,表示值缺失。 添加数据源节点 编辑“数据源节点” 节点重命名 加入表节点 “选择”节点 A1=? or @NULL(A2) o
您可能关注的文档
最近下载
- 眼外伤ppt课件-眼外伤健康教育课件.ppt VIP
- 《新时代思想读本》3.2新时代新征程课件.pptx VIP
- 2024-2025学年初中信息科技湘教版2024七年级上册-湘教版2024教学设计合集.docx
- 人教鄂教版科学四年级上册全册教学设计教案.doc
- DB11T 945.1-2023建设工程施工现场安全防护、场容卫生及消防保卫标准 第1部分:通则.pdf VIP
- 外研版六年级(上册)M4U2.ppt VIP
- 大学课程思政案例(高校课程思政案例)-思政案例内容整理.docx VIP
- 《无人机综合监管与航路规划》全套教学课件.pptx VIP
- (优质!)Amfori BSCI社会责任验厂全套管理手册及程序文件.docx VIP
- 自-电大__电工电子技术总复习题及答案 .doc VIP
文档评论(0)