1516分类与预测 1.ppt

  1. 1、本文档共77页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1516分类与预测 1

数据挖掘 陈靖宇 广东工业大学 2007 ?分类 VS. 预测 分类︰ 预测分类标号(或离散值) 根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新资料 预测︰ 建立连续函数值模型,比如预测空缺值 典型应用 信誉认证 目标市场 医疗诊断 性能预测 分类(Classification) 分类的意义 ?资料分类: 一个两步过程 第一步,建立一个模型,描述预定数据类集和概念集 假定每个元组属于一个预定义的类,由一个类标号属性确定 基本概念 训练数据集︰由为建立模型而被分析的数据元组形成 训练样本︰训练数据集中的单个样本(元组) 学习模型可以用分类规则、判定树或数学公式的形式提供 第二步,使用模型,对将来的或未知的对象进行分类 首先评估模型的预测准确率 对每个测试样本,将已知的类标号和该样本的学习模型类预测比较 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比 测试集要独立于训练样本集,否则会出现“过分适应数据”的情况 第一步: 建立模型 第二步: 用模型进行分类 1.模型建立(Model Building) 2.模型评估(Model Evaluation) 3.使用模型(Use Model) Example 分类的目的 1.寻找影响某一重要变项的因素。 2.了解某一族群的特征。 3.建立分类规则。 营销策略(市场区隔) 找出会购买笔记本的顾客属性 银行(核卡额度) 根据预测的信用等级决定核卡额度 医疗诊断(肝癌,SARS) 依病人的症状判断是否患SARS ?有指导的学习 VS. 无指导的学习 有指导的学习(用于分类) 模型的学习在被告知每个训练样本属于哪个类别的“指导”下进行 新数据使用训练数据集中得到的规则进行分类 无指导的学习(用于聚类) 每个训练样本的类别编号是未知的,要学习的类别集合或数量也可能是事先未知的 透过一系列的度量、观察来建立数据中的类别编号或进行聚类 ?准备分类和预测的资料 透过对数据进行预处理,可以提升分类和预测过程的准确性、有效性和可伸缩性 资料清理 消除或减少噪音,处理空缺值,从而减少学习时的混乱 相关性分析 数据中的有些属性可能与当前任务不相关;也有些属性可能是冗余的;删除这些属性可以加快学习步骤,使学习结果更精确 资料变换 可以将数据概化到较高层概念,或将数据进行规范化 ?比较分类方法 使用下列标准比较分类和预测方法 预测的准确率︰模型正确预测新数据的类编号的能力 训练测试法(training-and-testing) 交互验证法(cross-validation) 速度︰产生和使用模型的计算花销 健壮性︰给定噪音数据或有空缺值的数据,模型正确预测的能力 可伸缩性︰对大量数据,有效的构建模型的能力 可解释性︰学习模型提供的理解和洞察的层次 分类所需的数据前置处理 数据概化 将连续性数据离散化,数据的数值分布精简化 避免分类的质量不佳 特征属性选取(feature selection) 找出具有关键影响的属性,将无关属性去除 提高分类的精准度 注意 每笔建立分类模型的数据样本,一定要有已知的分类标记(class label) ,包含这个已知分类标记的属性称之为标记属性 是否购买笔记本?标记属性 分类的程序 建立模型 利用现有数据找出分类模型 模型的表示方式有: 分类规则(classification rules) 决策树(decision trees) 数学公式(mathematical formulas) 评估模型 将数据分成训练样本(training samples) 及测试样本(testing samples) 第一阶段利用训练样本来建立模型 第二阶段测试样本评估准确性 使用模型 找出数据分类的原因 预测新进数据类型 分类程序的范例 (1) 步骤1:建立模型 分类程序的范例(2) 步骤2:评估模型 分类程序的范例(3) 步骤3:使用模型 假设有一位新会员陈建成前来注册,其基本数据为35岁,单身,低收入 依分类模型所预测的结果为 “是”,也就是此会员有可能会购买笔记本 该在线购物商店可对此会员进行一连串笔记本的广告营销活动,例如寄送电子报,以促使顾客下单购买笔记本 分类法的准确性 训练测试法(training-and-testing) 数据样本分为训练和测试数据集,训练数据集建立分类模型,利用测试数据集测试准确性 适合用在样本空间非常大的情况 交互验证法 (cross-validation) 数据样本分成k个子样本,轮流将k-1个子样本当作训练样本,剩下一个子样本当作测试样本,重复做k次建立模型的工作之后,找出准确度最高的分类模型,也称作k迭交互验证法 (k-fold cross validation) 适合用在样本空间不多的情况 自助法 (bootstrap m

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档