数据挖掘 第三章 课后习题答案.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

分类技术在很多领域都有应用,例如可以通过客户分类构造一个

分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一

个特点是强调客户细分。客户类别分析的功能也在于此,采用数据挖

掘中的分类技术,可以将客户分成不同的类别,比如呼叫中心设计时

可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、

其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分

类模型可以让用户了解不同行为类别客户的分布特征;其他分类应用

如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类

技术的入侵检测等等。机器学习、专家系统、统计学和神经网络等领

域的研究人员已经提出了许多具体的分类预测方法。

又如:信用卡核准过程,信用卡公司根据信誉程度,将一组持卡

人记录为良好、一般和较差三类,且把类别标记赋给每个记录,如:

“信誉良好的客户是那些收入在5万元以上,年龄在40-50岁之间的

人士”。

2、

决策树是一种倒立的树结构,它由内部节点、叶子节点和边组

成。其中最上面的一个节点叫根节点。构造一棵决策树需要一个训

练集,一些例子组成,每个例子用一些属性(或特征)和一个类别标

记来描述。构造决策树的目的是找出属性和类别间的关系,一旦这种

关系找出,就能用它来预测将来未知类别的记录的类别。这种具有预

测功能的系统叫决策树分类器。

,二叉树的内部节点一般表示为一

个逻辑判断,如形式为的逻辑判断,其中ai是属性,vi

是该属性的某个属性值;树的边是逻辑判断的分支结果。多叉树(如

ID3)的内部节点是属性,边是该属性的所有取值,有几个属性值,

就有几条边。树的叶子节点都是类别标记。

构造一个决策树分类器通常分为两步:树的生成和剪枝。其中树的生

成是采用自上而下的递归方法。以多叉树为例,它的构造思路是,如

果训练例子集合中的所有例子是同类的,则将之作为叶子节点,节点

内容即是该类别标记。否则,根据某种策略选择一个属性,按照属性

的各个取值,把例子集合划分为若干子集合,使得每个子集上的所有

例子在该属性上具有同样的属性值。然后再依次递归处理各个子集。

这种思路实际上就是“分而治之”(divide-and-conquer)的道理。

二叉树同理,差别仅在于要选择一个好的逻辑判断。由此可以看出,

节点处所选的属性不同,会构成不同的决策树,而不同的树,预测精

度一般是不同的。因此,树构成步骤中,主要就是找出节点的属性和

如何对属性值的划分。

第一步构造的树完全符合训练集中的数据,若训练集中的数据有噪声

(如某些记录的属性值有误,类别标记有误等等),则这种完全符合

就成了过分拟合,它反而不具有很好的预测性,因此就进行第二步:

剪枝。剪枝就是剪去那些不会增大树的错误预测率的分枝。经过剪

枝,不仅能有效的克服噪声,还使树变得简单,容易理解。所以,剪

枝在构造决策树分类器的过程中也是很重要的。

处理流程:

(1)创建一个结点;

(2)若该结点中的所有样本均为同一类别C,则开始

根结点对应所有的训练本返回N作为一个叶结点并标志为类别C;

(3)若attribute-list为空,则返回N作为一个叶结点

并标记为该结点所含样本中类别个数最多的类别;

(4)从attribute-list选择一个信息增益最大的属性

test-attribute;

(5)并将结点N标记为test-attribute;

(6)对于test-attribute中的每一个已知取值ai,准备

划分结点N所包含的样本集;

(7)根据test-attribute=ai条件,从结点N产生相应

的一个分支,以表示该测试条件;

(8)设si为test-attribute=ai条件所获得的样本集

合;

(9)若si为空,则将相应叶结点标记为该结点所含样

本中类别个数最多的类别;

(10)否则将相应的叶结点标志为Generate-decision-

tree(si,attribute-listtest-attribute)返回值。

8、

1.QUEST

IBM

文档评论(0)

各类考试卷精编 + 关注
官方认证
内容提供者

各类考试卷、真题卷

认证主体社旗县兴中文具店(个体工商户)
IP属地河南
统一社会信用代码/组织机构代码
92411327MAD627N96D

1亿VIP精品文档

相关文档