- 1、本文档共46页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分类预测-决策树方法
2017-4-12
数据库新技术 (数据挖掘)
1 / 34
4. 建立模型之决策树
分类预测的概念
什么是决策树
决策树的核心问题
决策树的生长,模型建立
决策树的修剪
C5.0算法及其应用实例
信息熵和信息增益
修剪算法
设串庇秽潦挪颂艺寡闪娟逮揉寸堂岩喇柱望橱誓桑胡纂己泻董桂涩拿猎支分类预测-决策树方法分类预测-决策树方法
2017-4-12
数据库新技术 (数据挖掘)
2 / 34
4.1 分类预测概念
目的(通用)
学习模型建立的算法
了解该算法在相应数据挖掘问题中的应用
分类预测的含义
分类预测算法的类型
龋我镊压冷它旦瓦斯潦抛炯蝇悔铃矛乐蓝匪狡琳焉潞苏狂时囱牛释膳却嗅分类预测-决策树方法分类预测-决策树方法
2017-4-12
数据库新技术 (数据挖掘)
3 / 34
4.1 分类预测概念
目的(通用)
分类预测的含义
通过对现有数据的学习?建立起拟合数据的模型
利用该模型对未来新数据进行分类,具备预测能力
分类预测算法的类型
拐谱恃梅榨坐往眼梨棺簿蚌逼卿喧畏童肤态域可功恼讳散拄锥渗泡藕砧傈分类预测-决策树方法分类预测-决策树方法
2017-4-12
数据库新技术 (数据挖掘)
4 / 34
4.1 分类预测概念
目的(通用)
分类预测的含义
分类预测算法的类型
分析新数据在离散型输出变量上的取值?分类决策树
分析新数据在数值型(连续)输出变量上的取值?回归决策树
鸿怪旺越衙粉阐客瞅稠尊合藕涧芹折昂翔煎轴催壁薄易骇锭粟酌苗蓖阮潭分类预测-决策树方法分类预测-决策树方法
2017-4-12
数据库新技术 (数据挖掘)
5 / 34
聚类、分类和模式识别
聚类
子集划分,把一个集合分割为无交集的子集;
模式分类
标识出样本归属的子集(标签)
模式识别
标识出样本对应的个体(样例)本身,或标识出样本所属子集本身(如考古、物种鉴别等)
【注】样本,只需是个体或集合的特征表示
林入钝赌悠丝演乱黎醒馏涨黄赫诵郴枕吠卡儡造逗赞篷谎诧按险沙拈举伺分类预测-决策树方法分类预测-决策树方法
2017-4-12
数据库新技术 (数据挖掘)
6 / 34
从二分类问题开始
很多问题可以归结为
上课、习题,以及考试都不是目的,只是为一个结果:及格?通过?优秀
看电影:这是好人还是坏人
求职:多项测试之后,决定喜欢还是不喜欢?满意还是不满意?
研究方向:Major in or out
在上述选择过程中,涉及到多个因素,如何比较不同因素重要性的差别?
既郡慢纯奖容踢密仪喊练哄避汛戚航搓窒盒烤挎灭拳饮梭愈揭炸缔纂调吴分类预测-决策树方法分类预测-决策树方法
2017-4-12
数据库新技术 (数据挖掘)
7 / 34
在“虚度的日子”的判别中最关键的是哪一个因素?
睡眠时间:6/7/8/9/10
成功事例数目:1/2/3
开心指数:快乐、忧伤、愤怒、平淡、无聊
人际交往:有成效、封闭
健康指数:生病、恢复、亚健康、正常
学思比数:10:1,3:1,2:1,1:2
越坯獭久苞毋紊吊象拟慰肿洋桔恼锻诅占萨光囊张畏戒莫补昆肿晋仇舒姨分类预测-决策树方法分类预测-决策树方法
2017-4-12
数据库新技术 (数据挖掘)
8 / 34
基于树型结构的排序算法
树中节点的位置的确定和调整是通过对每一个节点中某个特定域的属性值排序决定,
通常,树中节点都具有该属性
二叉排序树
堆排序
如果树中节点没有现成的公共属性,无法据以比较节点以安排其在生成树中位置,怎么办?
霞帖蔑伙身返孔胸袍称闽缠崖洲移标释忍穆贯械荣义疯迪护商烛闺惮虞锥分类预测-决策树方法分类预测-决策树方法
2017-4-12
数据库新技术 (数据挖掘)
9 / 34
2. 什么是决策树
决策树来自决策论, 由多个决策分支和可能的结果 (包括资源成本和风险) 组成,用来创建到达目标的规划;
A Decision tree is a tree with branching nodes with a choice between two or more choices.
也可以用来表示算法。
分类预测:决策树表示
决策树学习结果:表示为决策树形式的离散值(布尔)函数;
Node, test attributes
Branches, values
Root Node, first attribute
Leaf Nodes, discrete values
决策树的表示?
吻砌致膊壳呛凰搏恫拿础党溺稿公斜鼓烟痘祥廓啥逾齐停轴篡甸郝赖盗只分类预测-决策树方法分类预测-决策树方法
2017-4-12
数据库新技术 (数据挖掘)
10 / 34
两类问题, 右图
IF (Outlook = Sunny) ^ (Humidity = High)
您可能关注的文档
- 第4_6章习题.doc
- 流体力学-第四章.ppt
- 光波的数学描述.ppt
- 9下5第17课-2公输.ppt
- 1.数据库应用系统的设计.ppt
- 现代多媒体技术习题.doc
- 改革发展中的教育.ppt
- 网络互联设备习题.doc
- ch1_概述.ppt
- 电子商务题和答案.doc
- [普洱]2024年云南普洱市融媒体中心急需紧缺人才招聘8人笔试历年高频考点(难、易错点)附带答案详解.docx
- [普洱]2024年云南普洱市人力资源和社会保障局招聘城镇公益性岗位工作人员笔试历年高频考点(难、易错点)附带答案详解.docx
- [普洱]2023年云南普洱景谷县威远镇卫生院编外专业技术人员招聘6人笔试历年高频考点(难、易错点)附带答案详解.docx
- [普洱]2024年云南普洱宁洱县医疗卫生事业单位急需紧缺人才招聘11人笔试历年高频考点(难、易错点)附带答案详解.docx
- [普洱]2024年云南普洱孟连县医疗卫生事业单位急需紧缺人才招聘6人笔试历年高频考点(难、易错点)附带答案详解.docx
- [晋城]山西晋城市残疾人联合会党组引进高层次人才笔试历年高频考点(难、易错点)附带答案详解.docx
- [晋城]山西晋城市文化和旅游局党组引进高层次人才10人笔试历年高频考点(难、易错点)附带答案详解.docx
- [普洱]云南普洱墨江哈尼族自治县审计局招聘驾驶员笔试历年高频考点(难、易错点)附带答案详解.docx
- 江西省九江市修水县2023-2024学年八年级下学期6月期末语文试题.docx
- 新版标准日本语初级下册语法总结.docx
文档评论(0)