1516分类与预测 1.ppt

下载文档 降价啦

10
0
约1.32万字
约 77页
2018-03-30 发布于江西
举报
版权申诉
保障服务

1516分类与预测 1.ppt

1、本文档共77页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

1516分类与预测 1

数据挖掘陈靖宇广东工业大学 2007 ?分类 VS. 预测分类︰预测分类标号（或离散值）根据训练数据集和类标号属性，构建模型来分类现有数据，并用来分类新资料预测︰建立连续函数值模型，比如预测空缺值典型应用信誉认证目标市场医疗诊断性能预测分类(Classification) 分类的意义 ?资料分类: 一个两步过程第一步，建立一个模型，描述预定数据类集和概念集假定每个元组属于一个预定义的类，由一个类标号属性确定基本概念训练数据集︰由为建立模型而被分析的数据元组形成训练样本︰训练数据集中的单个样本（元组）学习模型可以用分类规则、判定树或数学公式的形式提供第二步，使用模型，对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本，将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集，否则会出现“过分适应数据”的情况第一步: 建立模型第二步: 用模型进行分类 1.模型建立(Model Building) 2.模型评估(Model Evaluation) 3.使用模型(Use Model) Example 分类的目的 1.寻找影响某一重要变项的因素。 2.了解某一族群的特征。 3.建立分类规则。营销策略(市场区隔) 找出会购买笔记本的顾客属性银行(核卡额度) 根据预测的信用等级决定核卡额度医疗诊断(肝癌,SARS) 依病人的症状判断是否患SARS ?有指导的学习 VS. 无指导的学习有指导的学习（用于分类）模型的学习在被告知每个训练样本属于哪个类别的“指导”下进行新数据使用训练数据集中得到的规则进行分类无指导的学习（用于聚类）每个训练样本的类别编号是未知的，要学习的类别集合或数量也可能是事先未知的透过一系列的度量、观察来建立数据中的类别编号或进行聚类 ?准备分类和预测的资料透过对数据进行预处理，可以提升分类和预测过程的准确性、有效性和可伸缩性资料清理消除或减少噪音，处理空缺值，从而减少学习时的混乱相关性分析数据中的有些属性可能与当前任务不相关；也有些属性可能是冗余的；删除这些属性可以加快学习步骤，使学习结果更精确资料变换可以将数据概化到较高层概念，或将数据进行规范化 ?比较分类方法使用下列标准比较分类和预测方法预测的准确率︰模型正确预测新数据的类编号的能力训练测试法(training-and-testing) 交互验证法(cross-validation) 速度︰产生和使用模型的计算花销健壮性︰给定噪音数据或有空缺值的数据，模型正确预测的能力可伸缩性︰对大量数据，有效的构建模型的能力可解释性︰学习模型提供的理解和洞察的层次分类所需的数据前置处理数据概化将连续性数据离散化，数据的数值分布精简化避免分类的质量不佳特征属性选取(feature selection) 找出具有关键影响的属性，将无关属性去除提高分类的精准度注意每笔建立分类模型的数据样本，一定要有已知的分类标记(class label) ，包含这个已知分类标记的属性称之为标记属性是否购买笔记本?标记属性分类的程序建立模型利用现有数据找出分类模型模型的表示方式有：分类规则(classification rules) 决策树(decision trees) 数学公式(mathematical formulas) 评估模型将数据分成训练样本(training samples) 及测试样本(testing samples) 第一阶段利用训练样本来建立模型第二阶段测试样本评估准确性使用模型找出数据分类的原因预测新进数据类型分类程序的范例 (1) 步骤1：建立模型分类程序的范例(2) 步骤2：评估模型分类程序的范例(3) 步骤3：使用模型假设有一位新会员陈建成前来注册，其基本数据为35岁，单身，低收入依分类模型所预测的结果为 “是”，也就是此会员有可能会购买笔记本该在线购物商店可对此会员进行一连串笔记本的广告营销活动，例如寄送电子报，以促使顾客下单购买笔记本分类法的准确性训练测试法(training-and-testing) 数据样本分为训练和测试数据集，训练数据集建立分类模型，利用测试数据集测试准确性适合用在样本空间非常大的情况交互验证法 (cross-validation) 数据样本分成k个子样本，轮流将k-1个子样本当作训练样本，剩下一个子样本当作测试样本，重复做k次建立模型的工作之后，找出准确度最高的分类模型，也称作k迭交互验证法 (k-fold cross validation) 适合用在样本空间不多的情况自助法 (bootstrap m