基于决策树方法的分类规则的挖掘.docVIP

下载本文档

15
0
约7.32千字
约 11页
2018-01-01 发布于河南
举报
版权申诉

基于决策树方法的分类规则的挖掘.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于决策树方法的分类规则的挖掘

基于决策树方法的分类规则的挖掘基于决策树方法的分类规则的挖掘分类： AUTO--HTML 第五期　作者：王疏艳摘要：　　数据挖掘由一些大型零售机构所面临的决策支持问题(decision support problem)所激发。应用条形码技术采集的大量销售数据成为挖掘的基础。通过对这些数据进行挖掘，我们可以找到对于商业销售及生产极为有效的一些信息(这些信息通过具体的模式得到反映)，从而可以提高销售和生产效率，降低成本，取得最大的商业效益，这就是数据挖掘的意义所在。本文主要介绍了数据挖掘中的一种模式：基于决策树方法的分类规则。并且详细了构造决策树分类器的一种算法--C4.5算法 1研究背景 1.1术语　　KDD技术的定义：　　KDD是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的处理过程，这种处理过程是一种高级的处理过程。　　通常KDD包括数据准备，数据挖掘，及结果的解释和评价三个阶段。数据挖掘是根据决策需要，确定数据挖掘的任务和目的，并采用具体的数据挖掘算法从数据集中挖掘出有用知识的过程，是KDD的核心环节，是KDD研究的主要课题。通常,我们不区分KDD和数据挖掘。　　数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 2 分类规则分析 2．1分类器　　分类要解决的问题是为一个事件或对象归类。在使用上，既可以用此模型分析已有的数据，也可以用它来预测未来的数据。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型（即我们通常所说的分类器(Classifier)）。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个，从而可以应用于数据预测。例如，用分类来预测哪些客户最倾向于对直接邮件推销做出回应，又有哪些客户可能会换他的手机服务提供商，或在医疗领域当遇到一个病例时用分类来判断一下从哪些药品着手比较好。　　要构造分类器，需要有一个训练样本数据集作为输入。训练集(Training set) 由一组数据库记录或元组构成，每个记录是一个由有关字段值组成的特征向量，我们把这些字段称做属性(Attribute)，把用于分类的属性叫做标签(Label)，标签属性也就是训练集的类别标记。一个具体的样本的形式可以表示为(v1, v2，... ，vn；c), 其中vi 表示字段值，c 表示类别。训练集是构造分类器的基础。标签属性的类型必须是离散的，且标签属性的可能值的数目越少越好（最好是两或三个值）。标签值的数目越少，构造出来的分类器的错误率越低。　　通常的分类器有三种：决策树分类器，选择树分类器和证据分类器。我们主要研究的是决策树分类器。从训练集中自动地构造出分类器的算法叫做生成器。 2．2决策树分类器　　决策树方法起源于概念学习系统(CLS：Concept Learning System)，然后发展了ID3 方法并达到高峰，最后又演化为能处理连续属性的C4.5。有名的决策树方法还有CART 和Assistant。决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如，在投保申请中，要对投保风险的大小做出判断，下图是为了解决这个问题而建立的一棵决策树，从中我们可以看到决策树的基本组成部分：决策节点、分支和叶子。　　决策树中最上面的节点称为根节点，是整个决策树的开始。本例中根节点是年收入￥40,000，对此问题的不同回答产生了是和否两个分支。　　决策树的每个节点子节点的个数与决策树在用的算法有关。如CART算法得到的决策树每个节点有两个分支，这种树称为二叉树。允许节点含有多于两个子节点的树称为多叉树。　　每个分支要么是一个新的决策节点，要么是树的结尾，称为叶子。在沿着决策树从上到下遍历的过程中，在每个节点都会遇到一个问题，对每个节点上问题的不同回答导致不同的分支，最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程，利用几个变量（每个变量对应一个问题）来判断所属的类别（最后每个叶子会对应一个类别）。　　建立决策树的过程，即树的生长过程是不断的把数据进行切分的过程，每次切分对应一个问题，也对应着一个节点。对每个切分都要求分成的组之间的差异最大。　　各种决策树算法之间的主要区别就是对这个差异衡量方式的区别。在此，我们只需要把切分看成是把一组数据分成几份，份与份之间尽量不同，而同一份内的数据尽量相同。这个切分的过程也可称为数据的纯化。看我们的例子，包含两个类别-索赔和无索赔。如果经过一次切分后得到的分组，每个分组中的数据都属于同一个类别，显然达到这样效果的切分方法就是我们所追求的。　　到现在为止，我们所讨论的例子都是非常简