- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分类 分类 预测 分类 * Data Mining: Concepts and Techniques * 信息增益对于连续值的处理 必须确定分裂属性A的”最佳”分裂点,其中分裂点是A上的阈值. 将A的值按增序排序.典型的,每对相邻值的中点都可以看作为可能的分裂点.给点A的v个值,则需要计算v-1个可能的分裂. 选择具有最小期望信息需求的点作为A的分裂点. * Data Mining: Concepts and Techniques * 增益率(C4.5) 信息增益趋向于选择具有大量值的属性, 比如针对product_ID这个充当唯一标识的属性,很容易导致大量划分,每个只包含一个分组,每个划分都是纯的,则E(product_id)=0.这种划分对于分类没用 增益率的引入:使用分裂信息值将信息增益规范化,分裂信息值定义为: * Data Mining: Concepts and Techniques * 该值代表通过将训练数据集D划分成对应于属性A测试的v个输出的v个划分产生的信息. 对于每个输出,它关于D中元组总数考虑具有该输出的元组数. * Data Mining: Concepts and Techniques * * Data Mining: Concepts and Techniques * 顾客数据库类标记的训练元组 * Data Mining: Concepts and Techniques * 例子:属性income的增益率计算 属性income将数据分为三类:low,medium,high,分别包含4,6,4个元组. 因此.GainRatio(income)=0.029/1.557=0.019 * Data Mining: Concepts and Techniques * Gini 指标 如果数据集 T 来自n个类的样本, 则gini指标,gini(T) 定义为 其中 pj 是T中元组属于 j 类的概率. 如果数据集T分裂成 T1 和T2 ,各自大小分别为 N1 和 N2 , 分裂数据的gini指标包含来自N个类的样本,则gini指标 gini(T) 定义为 选择具有最小gini指标 ginisplit(T) 的属性作为分裂属性 (对于每个属性都需要枚举所有可能的分裂节点).对于连续值的处理,类似于信息增益 * Data Mining: Concepts and Techniques * 顾客数据库类标记的训练元组 Data Mining: Concepts and Techniques * Data Mining: Concepts and Techniques * 第三章 分类与预测 软件工程系 郑皎凌 * Data Mining: Concepts and Techniques * 分类和预测 什么是分类,什么是预测 用决策树归纳分类 … … … … … 非哺乳动物 … 是 恒温 海豚 非哺乳动物 … 否 恒温 鸵鸟 类别 … 胎生 体温 名字 * Data Mining: Concepts and Techniques * 分类和预测是两种数据分析方式,用来提取重要数据类或预测未来的数据趋势的模型。 分类: 预测分类标号(离散,无序的) 基于训练集和分类属性的值(类标号)对组成一个模型的数据进行分类,并将其用在对新的数据进行分类上 预测: 对连续值函数建模,比如预测未知或者遗失的值 典型应用 信贷审批 目标营销 医学诊断 治疗效果分析 分类 VS 预测 * Data Mining: Concepts and Techniques * 分类是一个两步过程 构建模型(分类器): 描述预先定义的数据类或概念集 假定每个元组都属于一个预先定义的类,由称作类标号属性的数据库属性确定 用来构建模型的元组的集合叫做训练集 模型可以表示成分类规则,决策树或者数学公式 使用模型: 对未来和未知的目标进行分类 估计模型的准确率 使用模型的分类结果来和测试样本的已知标签进行比较 准确率是被模型正确分类的检验元组所占的百分比 检验集独立于训练元组,否则就会发生过分拟合(即在学习期间,它可能并入了训练数据中的某些特殊的异常点,这些异常不再一般数据集中出现) * Data Mining: Concepts and Techniques * 预测是一个两步过程 该过程类似于分类过程。 没有类标号属性,因为预测的属性值是连续值(有序的)。 同样使用独
您可能关注的文档
- 发热原因概述.doc
- 第二章货物大类的特性总结.ppt
- 发射发光作业与概述.ppt
- 第三篇蛋与蛋制品第四章湿蛋制品方案.ppt
- 第三篇第八章心脏瓣膜病方案.ppt
- 第二章机器人机械系统总结.ppt
- 发射构成FSGC概述.ppt
- 第三篇第三章心律失常方案.ppt
- 第二章机械优化数学问题总结.ppt
- 发生在肺里的气体交换动画概述.ppt
- 机电技术教育设计基于UG下的钢丝包装机的虚拟装配.doc
- 机械设计制造及其自动化论文汽车火花点火系统电磁干扰的抑制方法.doc
- 机械设计制造及其自动化论文基于solidworks的轴承架模拟仿真.doc
- TGXSES0004-2023 土壤和沉积物 6种醚类化合物的测定 吹扫捕集 气相色谱-质谱法.pdf
- DB62T4735-2023 动物诊疗机构医疗废弃物处置技术规范.pdf
- TZS0344-2022 数字化无掩模激光直写光刻机.pdf
- 安徽省建设用地使用标准编制说明.pdf
- DB62T4492-2022 枸杞品种甘杞1号.pdf
- TSDSES-化工材料-再生环戊酮.pdf
- DB4403T涉河建设项目防洪评价和管理技术规范.pdf
文档评论(0)