第三章+分类和预测-20140923方案.ppt

下载文档 降价啦

6
0
约 52页
2017-05-09 发布于湖北
举报
版权申诉
保障服务

第三章+分类和预测-20140923方案.ppt

1、本文档共52页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分类分类预测分类 * Data Mining: Concepts and Techniques * 信息增益对于连续值的处理必须确定分裂属性A的”最佳”分裂点,其中分裂点是A上的阈值. 将A的值按增序排序.典型的,每对相邻值的中点都可以看作为可能的分裂点.给点A的v个值,则需要计算v-1个可能的分裂. 选择具有最小期望信息需求的点作为A的分裂点. * Data Mining: Concepts and Techniques * 增益率（C4.5）信息增益趋向于选择具有大量值的属性, 比如针对product_ID这个充当唯一标识的属性,很容易导致大量划分,每个只包含一个分组,每个划分都是纯的,则E(product_id)=0.这种划分对于分类没用增益率的引入:使用分裂信息值将信息增益规范化,分裂信息值定义为: * Data Mining: Concepts and Techniques * 该值代表通过将训练数据集D划分成对应于属性A测试的v个输出的v个划分产生的信息. 对于每个输出,它关于D中元组总数考虑具有该输出的元组数. * Data Mining: Concepts and Techniques * * Data Mining: Concepts and Techniques * 顾客数据库类标记的训练元组 * Data Mining: Concepts and Techniques * 例子:属性income的增益率计算属性income将数据分为三类:low,medium,high,分别包含4,6,4个元组. 因此.GainRatio(income)=0.029/1.557=0.019 * Data Mining: Concepts and Techniques * Gini 指标如果数据集 T 来自n个类的样本, 则gini指标,gini(T) 定义为其中 pj 是T中元组属于 j 类的概率. 如果数据集T分裂成 T1 和T2 ,各自大小分别为 N1 和 N2 , 分裂数据的gini指标包含来自N个类的样本,则gini指标 gini(T) 定义为选择具有最小gini指标 ginisplit(T) 的属性作为分裂属性 (对于每个属性都需要枚举所有可能的分裂节点).对于连续值的处理,类似于信息增益 * Data Mining: Concepts and Techniques * 顾客数据库类标记的训练元组 Data Mining: Concepts and Techniques * Data Mining: Concepts and Techniques * 第三章分类与预测软件工程系郑皎凌 * Data Mining: Concepts and Techniques * 分类和预测什么是分类,什么是预测用决策树归纳分类 … … … … … 非哺乳动物 … 是恒温海豚非哺乳动物 … 否恒温鸵鸟类别 … 胎生体温名字 * Data Mining: Concepts and Techniques * 分类和预测是两种数据分析方式，用来提取重要数据类或预测未来的数据趋势的模型。分类: 预测分类标号（离散，无序的）基于训练集和分类属性的值(类标号)对组成一个模型的数据进行分类,并将其用在对新的数据进行分类上预测: 对连续值函数建模,比如预测未知或者遗失的值典型应用信贷审批目标营销医学诊断治疗效果分析分类 VS 预测 * Data Mining: Concepts and Techniques * 分类是一个两步过程构建模型(分类器): 描述预先定义的数据类或概念集假定每个元组都属于一个预先定义的类,由称作类标号属性的数据库属性确定用来构建模型的元组的集合叫做训练集模型可以表示成分类规则,决策树或者数学公式使用模型: 对未来和未知的目标进行分类估计模型的准确率使用模型的分类结果来和测试样本的已知标签进行比较准确率是被模型正确分类的检验元组所占的百分比检验集独立于训练元组,否则就会发生过分拟合(即在学习期间,它可能并入了训练数据中的某些特殊的异常点,这些异常不再一般数据集中出现) * Data Mining: Concepts and Techniques * 预测是一个两步过程该过程类似于分类过程。没有类标号属性，因为预测的属性值是连续值（有序的）。同样使用独