《数据仓库与数据挖掘》(分类规则).pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第9章

分类规则挖掘与预测

主要内容

•分类与预测的根本概念

•决策树方法

•分类规则挖掘的ID3算法

•其他分类规则挖掘算法

•分类规则的评估

・微软决策树及其应用

9.1分类与预测的根本概念

1.什么是分类

数据分类(datalassfiation)是数据挖掘的主要内容之一,主要是通过分析训练数据样本,产生关

于类别的精确描述。这种类别通常由分类规则组成,可以用来对未来的数据进行分类和预测。

数据分类(datalassfiation)是一个两个步骤的过程:

•第1步:建立一个模型,描述给定的数据类集或概念集(简称训练集)。通过分析由属性描述的数据

库元组来构造模型。每个元组属于一个预定义的类,由类标号属性确定。用于建立模型的元组集称为

训练据集,其中每个元组称为训练样本。由于给出了类标号属性,因此该步骤又称为有指导的学习。

如果训练样木的类标号是未知的,则称为无指导的学习(聚类)。学习模型可用分类规则、决策树和

学公式的形式给出。

•第2步:使用模型对据进行分类。包括评估模型的分类准确性以及对类标号未知的元组按模型进

行分类。

(a)学习

(b)分类

图9-1据分类过程

2.常用的分类规则挖掘方法

分类规则挖掘有着广泛的应用前景。对于分类规则的挖掘通常有以下几种方法,不同的方法适用于不同特

性的所有值按比例缩放,使其落入指定的区间。

5.分类方法的评估标准

•准确率:模型正确预测新据类标号的能力。

•速度:产生和使用模型花费的时间。

•健壮性:有噪声据或空缺值据时模型正确分类或预测的能力。

•伸缩性:对于给定的大量据,有效地构造模型的能力。

•可解释性:学习模型提供的理解和观察的层次。

9.2决策树方法

决策树方法的起源是概念学习系统CLS,然后开展到由Quiulan研制ID3方法,然后到著名的C4.5算法,C4.5

算法的一个优点是它能够处理连续属性。还有CART算法和Assistant算法也是比较有名的决策树方法。

1.什么是决策树

决策树(DeisionTree)又称为判定树,是运用于分类的一种树结构。其中的每个内部结点(inte^alnode)代表

对某个属性的一次测试,每条边代表一个测试结果,叶结点(leaf)代表某个类(lass)或者类的分布(lass

distribution),最上面的结点是根结点。

决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。下例是为了解决这个问题而建立的一棵决策

树,从中可以看到决策树的根本组成局部:决策结点、分支和叶结点。

K例》图9-2给出了一个商业上使用的决策树的例子。它表示了一个关心电子产品的用户是否会购置PC

b(uys_computer)的知识,用它口J以预测某条记录(某个人)的购置意向。

图9-2buys_computer的决策树

这棵决策树对销售记录进行分类,指出一个电子产品消费者是否会购置一台计算机buys_computer。每个内

部结点(方形框)代表对某个属性的一次检测。每个叶结点(椭圆框)代表一个类:

buys_computers=yes或者

buys_computers=no

在这个例子中,样本向量为:

(age,student,credit_rating;buys_computers)

被决策数据的格式为:

(age,student,redit_rating)

输入新的被决策的记录,可以预测该记录隶属于哪个类。

2.使用决策树进行

文档评论(0)

专注于电脑软件的下载与安装,各种疑难问题的解决,office办公软件的咨询,文档格式转换,音视频下载等等,欢迎各位咨询!

1亿VIP精品文档

相关文档