第三章+分类和预测-20140923方案.ppt

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分类 分类 预测 分类 * Data Mining: Concepts and Techniques * 信息增益对于连续值的处理 必须确定分裂属性A的”最佳”分裂点,其中分裂点是A上的阈值. 将A的值按增序排序.典型的,每对相邻值的中点都可以看作为可能的分裂点.给点A的v个值,则需要计算v-1个可能的分裂. 选择具有最小期望信息需求的点作为A的分裂点. * Data Mining: Concepts and Techniques * 增益率(C4.5) 信息增益趋向于选择具有大量值的属性, 比如针对product_ID这个充当唯一标识的属性,很容易导致大量划分,每个只包含一个分组,每个划分都是纯的,则E(product_id)=0.这种划分对于分类没用 增益率的引入:使用分裂信息值将信息增益规范化,分裂信息值定义为: * Data Mining: Concepts and Techniques * 该值代表通过将训练数据集D划分成对应于属性A测试的v个输出的v个划分产生的信息. 对于每个输出,它关于D中元组总数考虑具有该输出的元组数. * Data Mining: Concepts and Techniques * * Data Mining: Concepts and Techniques * 顾客数据库类标记的训练元组 * Data Mining: Concepts and Techniques * 例子:属性income的增益率计算 属性income将数据分为三类:low,medium,high,分别包含4,6,4个元组. 因此.GainRatio(income)=0.029/1.557=0.019 * Data Mining: Concepts and Techniques * Gini 指标 如果数据集 T 来自n个类的样本, 则gini指标,gini(T) 定义为 其中 pj 是T中元组属于 j 类的概率. 如果数据集T分裂成 T1 和T2 ,各自大小分别为 N1 和 N2 , 分裂数据的gini指标包含来自N个类的样本,则gini指标 gini(T) 定义为 选择具有最小gini指标 ginisplit(T) 的属性作为分裂属性 (对于每个属性都需要枚举所有可能的分裂节点).对于连续值的处理,类似于信息增益 * Data Mining: Concepts and Techniques * 顾客数据库类标记的训练元组 Data Mining: Concepts and Techniques * Data Mining: Concepts and Techniques * 第三章 分类与预测 软件工程系 郑皎凌 * Data Mining: Concepts and Techniques * 分类和预测 什么是分类,什么是预测 用决策树归纳分类 … … … … … 非哺乳动物 … 是 恒温 海豚 非哺乳动物 … 否 恒温 鸵鸟 类别 … 胎生 体温 名字 * Data Mining: Concepts and Techniques * 分类和预测是两种数据分析方式,用来提取重要数据类或预测未来的数据趋势的模型。 分类: 预测分类标号(离散,无序的) 基于训练集和分类属性的值(类标号)对组成一个模型的数据进行分类,并将其用在对新的数据进行分类上 预测: 对连续值函数建模,比如预测未知或者遗失的值 典型应用 信贷审批 目标营销 医学诊断 治疗效果分析 分类 VS 预测 * Data Mining: Concepts and Techniques * 分类是一个两步过程 构建模型(分类器): 描述预先定义的数据类或概念集 假定每个元组都属于一个预先定义的类,由称作类标号属性的数据库属性确定 用来构建模型的元组的集合叫做训练集 模型可以表示成分类规则,决策树或者数学公式 使用模型: 对未来和未知的目标进行分类 估计模型的准确率 使用模型的分类结果来和测试样本的已知标签进行比较 准确率是被模型正确分类的检验元组所占的百分比 检验集独立于训练元组,否则就会发生过分拟合(即在学习期间,它可能并入了训练数据中的某些特殊的异常点,这些异常不再一般数据集中出现) * Data Mining: Concepts and Techniques * 预测是一个两步过程 该过程类似于分类过程。 没有类标号属性,因为预测的属性值是连续值(有序的)。 同样使用独

文档评论(0)

舞林宝贝 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档