数据挖掘--数据仓库与数据挖掘基础第7章(分类与预测).pptVIP

下载本文档

2
0
约5.38千字
约 33页
2018-04-29 发布于浙江
举报
版权申诉

数据挖掘--数据仓库与数据挖掘基础第7章(分类与预测).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘--数据仓库与数据挖掘基础第7章(分类与预测)

第一节分类和预测的基本概念第一节分类和预测的基本概念第一节分类和预测的基本概念第一节分类和预测的基本概念分类的实现构建模型：预设分类类别对每个样本进行类别标记训练集构成分类模型分类模型可表示为：分类规则、决策树或数学公式使用模型：识别未知对象的所属类别模型正确性的评价已标记分类的测试样本与模型的实际分类结果进行比较模型的正确率是指测试集中被正确分类的样本数与样本总数的百分比。测试集与训练集相分离，否则将出现过拟合（ over-fitting ）现象。第一节分类和预测的基本概念第一节分类和预测的基本概念第一节分类和预测的基本概念第二节常用分类方法第二节常用分类方法第二节常用分类方法第二节常用分类方法第二节常用分类方法第二节常用分类方法第二节常用分类方法第二节常用分类方法第二节常用分类方法第二节常用分类方法第二节常用分类方法第二节常用分类方法第二节常用分类方法第二节常用分类方法第二节常用分类方法第二节常用分类方法第二节常用分类方法第二节常用分类方法第三节预测方法第四节分类法的准确性第四节分类法的准确性预测连续值可以用回归统计技术建模。常用预测方法有：线性回归多元回归非线性回归广义线性模型 * * 1、分类和预测的基本概念 2、常用分类方法 3、预测方法 4、分类法的准确性第七章分类与预测数据库内容丰富，蕴涵大量信息，可以用于作出智能的商务决策。分类和预测是两种数据分析形式，可以用于提取描述重要数据类的模型或预测未来的数据趋势。分类是预测分类标号（离散值），预测建立连续值函数模型。第七章分类与预测分类是数据挖掘中的一个重要课题。分类的目的是获得一个分类函数或分类模型（也常常称作分类器），该模型能把数据库中的数据项映射到某一个给定类别。分类可用于提取描述重要数据类的模型或预测未来的数据趋势。第七章分类与预测许多分类和预测方法被机器学习、专家系统、统计学和神经生物学方面的学者提出；分类和预测的大部分算法是内存驻留算法，通常假设数据量较小；可伸缩的分类和预测技术，能够处理大量的驻留磁盘的数据；数据分类的基本技术有：判定树归纳、贝叶斯分类、贝叶斯网络、神经网络等；预测的方法主要有：线性的、非线性的、广义线性回归。第七章分类与预测 1、数据分类（data classification）数据分类是一个两步的过程：学习：用分类算法分析训练数据；分类：测试数据用于评估分类规则的准确率。 1、数据分类学习：建立一个模型，描述预定义的数据类集或概念集。通过分析由属性描述的数据库元组来构造模型。假设每个元组属于一个预定义的类，由一个称作类标号属性的属性确定。对于分类，数据元组也称为样本、实例或对象。为建立模型而被分析的数据元组形成训练数据集。训练数据集中的单个元组称作训练样本，随机从样本群中选取。 1、数据分类学习过程： … … … … excellent high 24…35 zhaojing fair Med 35 chenjie excellent High 24…35 xiaohong excellent Low =23 wangfei fair Low =23 liwei credit_rating income age name 训练数据分类算法分类规则 If age=“24…35” and Income=high then credit_rating=excellent 1、数据分类分类：使用模型进行分类。首先评估分类模型的预测准确率。保持方法是一种使用类标号样本测试集的简单方法。模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比。 1、数据分类分类过程： … … … … excellent High 24…35 hubin fair Low =23 Zhangli fair high 35 lixing credit_rating income age name 测试数据分类规则（wangjia，24…35， high） credit_rating？新数据 excellent 2、预测预测：就是构造和使用模型评估无标号样本类，