数据挖掘概念与技术第6章分类和预测.pptVIP

下载本文档

6
0
约5.37千字
约 35页
2018-04-12 发布于天津
举报
版权申诉

数据挖掘概念与技术第6章分类和预测.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘概念与技术第6章分类和预测

属性选择度量数学符号 D为元组的训练集，元组属于m个不同的类Ci(i=1,,,m) Ci,D是D中的Ci类的元组集合 |Ci,D|和|D|分别表示各自的元组个数线性回归线性回归线性回归 * 线性回归研究因变量Y对自变量X的线性相依关系参数需要估计以最好的拟合给定的数据绝大多数情况“最好的拟合”是由最小二乘法(least squares method)实现, 其他的方法也有用于预测（包括时间序列数据的预测），推断，假设检验和因果关系的建模 y x y = x + 1 X1 Y1 Y1’ * 线性回归线性回归: 包含一个响应变量y 和一个预测变量x y = w0 + w1 x 最小二乘法: 估计与点列最适合的直线对给定的数据,计算将这两个值代入公式计算得到一元线性回归公式 * * * * * * I : the expected information needed to classify a given sample E (entropy) : expected information based on the partitioning into subsets by A * * * * * * * * * 分类和预测是两种数据分析形式，用于提取描述重要数据类或预测未来的数据趋势的模型分类：预测类对象的分类标号（或离散值）根据训练数据集和类标号属性，构建模型来分类现有数据，并用来分类新数据预测：建立连续函数值模型比如预测空缺值，或者预测顾客在计算机设备上的花费典型应用欺诈检测、市场定位、性能预测、医疗诊断分类与预测分类银行贷款员需要分析数据，来弄清哪些贷款申请者是安全的，哪些是有风险的（将贷款申请者分为“安全”和“有风险”两类）我们需要构造一个分类器来预测类属编号，比如预测顾客属类预测银行贷款员需要预测贷给某个顾客多少钱是安全的构造一个预测器，预测一个连续值函数或有序值，常用方法是回归分析分类与预测（示例） * 分类: 基本概念分类: 基本概念决策树归纳监督学习（用于分类）模型的学习在被告知每个训练样本属于哪个类的“指导”下进行新数据使用训练数据集中得到的规则进行分类无监督学习（用于聚类）每个训练样本的类编号是未知的，要学习的类集合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中的类编号或进行聚类有监督 vs. 无监督学习 * 分类: 一个两步的过程(1) 第一步，也称为学习步，目标是建立描述预先定义的数据类或概念集的分类器分类算法通过分析或从训练集“学习”来构造分类器。训练集由数据库元组（用n维属性向量表示）和他们相对应的类编号组成；假定每个元组属于一个预定义的类训练元组：实例中训练数据集的记录类标号：实例中tenured属性的两个值yes、no 实例中的元组可以根据tenured的值 yes、no分为两类学习模型可以用分类规则、决策树或数学公式的形式提供 * 学习步实例: 模型构建训练数据分类算法 IF rank = ‘professor’ OR years 6 THEN tenured = ‘yes’ 分类器 (模型) 第二步，使用模型，对将来的或未知的对象在测试数据集上进行分类首先评估模型的预测准确率对每个测试样本，将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集，否则会出现“过分拟合”的情况分类: 一个两步的过程(2) * 过程 (2)实例: 使用模型预测分类器测试数据未知数据 (Jeff, Professor, 4) Tenured? 使用下列标准评估分类方法预测的准确率：模型正确预测新数据的类编号的能力速度：产生和使用模型的计算花销健壮性：给定噪声数据或有空缺值的数据，模型正确预测的能力可伸缩性：对大量数据，有效的构建分类器的能力可解释性：学习模型提供的理解和洞察的层次分类方法的评估 * 分类:决策树归纳分类: 基本概念决策树归纳什么是决策树？类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个树叶节点存放一个类编号 age? student? credit rating? no yes fair excellent youth senior no no yes yes yes Middle aged 决策树：Buys_computer * 用决策树分类: 例子 age? overcast student? credit rating? =30 40 no yes yes yes 31..40 no fair excellent yes no 训练集: