- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分类与决策树资料.ppt
tenured [‘tenju?d, ’tenj?d] adj. (美)享有终身职位的v. 授予…终身职位(tenure的过去分词) * regression [ri‘ɡre??n] n. 逆行;退化;回归;复原 * * 1、partition [pɑ:‘ti??n] n. 分割;划分,分开;隔离物;隔墙 vt. 分割;区分;分隔 2、trials n. 尝试,努力;审判;考验;顿顽(trial的复数) 3、symbolic [simb?lik]adj. 使用符号的;象征的;[语]符号的 * 1、validate [v?lideit] vt. 证实,验证;确认;使生效 * 1、accuracy [?kjur?si] n. [数] 精确度,准确性 2、generality [,d?en?r?liti] n. 概论;普遍性;大部分 * 1、pruning [‘pru:ni?]n. 修剪;剪枝adj. 修剪用的v. 修剪(prune的ing形式) 2、winnow [‘win?u] vt. 簸;把…挑出来;精选vi. 分出好坏;扬谷n. 扬谷;扬谷器vt.簸;把…挑出来;精选 3、severity [siveriti] n. 严重;严格;猛烈 * 1、cost [k?st] vt. 花费;使付出;使花许多钱n. 费用,代价,成本;损失vi. 花费 * * * 例示递归划分的过程 例1(Johnson和Wichern) 乘式割草机制造商意欲发现一个把城市中的家庭分成那些愿意购买乘式割草机和不愿意购买的两类的方法。在这个城市的家庭中随机抽取12个拥有者和12个非拥有者的家庭作为样本。这些数据如表1所示。这里的自变量是收入(X1)和草地面积(X2)。类别变量Y有两个类别:拥有者和非拥有者。表1 CART如何选择划分点? 对于一个变量划分点是一对连续变量值的中点. 例如: X1可能划分点是{38.1,45.3,50.1…,109.5}; X2可能划分点是{14.4,15.4,16.2…23}. 这些划分点按照能减少杂质的多少来分级. 杂质度量方法:Gini指标. 矩形A的Gini不纯度可定义为: 其中K=1,2,…C,来表示类, Pk是观测点中属于类K的比例. 杂度 在ID3算法中,用“熵”来度量数据集随机性的程度。 在CART中我们把这种随机性的程度称为“杂度”(impurity,也称为“不纯度”),并且用“吉尼”(gini)指标来衡量它。 吉尼指标 设t是决策树上的某个节点,该节点的数据集为S,由s个样本组成,其类标号属性具有m个不同的取值,即定义了m个不同的类Ci(i=1,2,…,m)。设属于类Ci的样本的个数为si。那么这个节点的吉尼指标这样来计算: 杂度削减 由于CART算法生成的是一棵二叉树,所以对于节点t来说,分裂后将产生两个子节点tL和tR,设这两个子节点的杂度分别为gini(tL)和gini(tR),那么,在此次分裂过程中的杂度削减为: 计算杂度削减 停止准则 以下任何一个规则被满足,节点将不再分裂 这个节点是“纯”的,即这个节点的所有样本都属于同一类别; 对于每一个属性(不包括类标号属性),节点中的所有样本都有相同的值; 当前节点所在的深度已经达到“最大树深度”(如果定义有); 这个节点的样本数量小于“父分支中的最小记录数” (如果定义有); 这个节点分裂后产生的子节点中包含的样本数量小于预定义的“子分支中的最小记录数”(如果定义有); 分裂产生的杂度削减小于预定义的“最小杂度削减”(如果定义有) 选择草地面积变量X2=19做第一次分割,由(X1,X2)组成的空间被分成X2=19和X219的两个矩形. 选择收入变量X1=84.75 我们能看到递归划分是如何精炼候选矩形,使之变得更纯的算法过程.最后阶段的递归分析如图5所示 这个方法被称为分类树的原因是每次划分都可以描述为把一个节点分成两个后续节点.第一次分裂表示为树的根节点的分支,如图6 树的前三次划分如图7 整个树如下图8 二用验证数据进行剪枝 CART过程中第二个关键的思想是用独立的验证数据集对根据训练集生成的树进行剪枝. CART剪枝目的:生成一个具有最小错误的树. 为什么要剪枝呢? 因为: 1 在树生成过程中可能存在不能提高 分类纯度的划分节点. 2 存在过拟合训练数据. 树的修剪 叶子节点过多,则树的复杂度高。 叶子节点过少,则误分类损失大。 代价复杂度 CART算法仍然使用后剪枝。在树的生成过程中,多展开一
您可能关注的文档
最近下载
- 制浆造纸企业成本核算岗工作流程.doc VIP
- GB 1499.2-2024 钢筋混凝土用钢 第2部分:热轧带肋钢筋.pdf VIP
- 【高中历史教研】李惠军:选择性必修一教材解读与教学建言.pdf VIP
- T∕CECS 10048-2019- 绿色建材评价 预拌砂浆.pdf VIP
- 土壤地理学土壤分类.ppt VIP
- 《诡案组》(1-14卷文字全本)作者:求无欲.txt VIP
- 最新北师大版小学数学五年级上册课时练习试题及答案(全册) .pdf VIP
- 党建与教育教学融合方案设计.docx VIP
- T∕CECS 10049-2019- 绿色建材评价 石膏装饰材料.pdf VIP
- 国际航运管理 全套课件.PPT VIP
文档评论(0)