数据挖掘中分类的方法探究.docVIP

下载本文档

3
0
约3.92千字
约 9页
2018-10-17 发布于福建
举报
版权申诉

数据挖掘中分类的方法探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘中分类的方法探究

数据挖掘中分类的方法探究　　[摘要]随着计算机技术的飞速发展，很多领域对分类方法提出新的要求。分析、比较当前具有代表性的分类算法，总结每种算法的优缺点，便于使用者根据需要选择合适的算法，也便于研究者对算法进行研究改进，提出性能更好的分类算法。　　[关键词]数据挖掘　分类　决策树　神经网络　　中图分类号：TP3　文献标识码：A　文章编号：1671－7597(2009)0210056－01 　　　　一、引言　　　　分类技术是数据挖掘中应用领域极其广泛的重要技术之一。至今已提出了多种分类算法，主要有决策树、关联规则、神经网络、支持向量机和贝叶斯、k－临近法、遗传算法、粗糙集以及模糊逻辑技术等。大部分技术都是使用学习算法确定分类模型，拟合输入数据中样本类别和属性集之间的联系，预测未知样本的类别。训练算法的主要目标是建立具有好的泛化能力的模型，该模型能够准确地预测未知样本的类别。　　各种分类算法有其自身的优劣，适合于不同的领域。目前随着新技术和新领域的不断出现，对分类方法提出了新的要求。下面对若干分类问题进行简要分析。　　　　二、分类方法及优缺点　　　　(一)基于决策树的分类　　基于决策树的分类算法是数据挖掘中最为典型的分类算法。决策树是一个类似于流程图的树结构，其每个内部节点表示在一个属性上的测试，每个分枝代表一个测试输出，每个叶节点代表类或类分布。　　1、决策树算法基本思想。开始时所有的训练样本在根部，基于最高信息增益自顶向下递归地划分数据集，生成决策树。当一个结点上所有样本都属于同一类或者没有剩余属性可以用来进一步划分样本时停止划分，形成一个叶结点。如果叶结点上的样本不属于同一类，则根据大多数样本的分类来确定叶结点的类别。　　创建决策树时，因数据中存在噪声和孤立点，许多分枝反映的是训练数据集中的异常。剪枝方法可以剪去不可靠的分枝，提高分类速度和分类的准确度。常用的剪枝方法有：先剪枝和后剪枝。前者通过提前停止树的构造而对树剪枝；后者在完全创建好的树上剪去分枝。　　2、典型的决策树算法。最为典型的决策树学习算法是ID3，它采用自顶向下不回溯策略，能保证找到一个简单的树。算法c4.5和c5.0是ID3的扩展，它们将分类领域从类别属性扩展到数值型属性。常见的决策树算法还有CART，CHAID，Quest和c5.0等。　　在决策树中，从根到树叶的每条路径以IF―THEN形式表示一条分类规则，沿着给定路径上的每个属性一值对形成规则前件的一个合取项，叶结点包含类预测，形成规则后件。　　3、优缺点。决策树很擅长处理非数值型数据，从决策树中可以方便地提取分类规则。其主要优点是描述简单，分类速度快，特别适合大规模的数据处理。不足之处是ID3算法偏向于选择属性较多的属性，而属性较多的属性往往不是最优的属性：学习简单的逻辑表达能力较差。　　　　(二)基于统计的分类　　贝叶斯分类算法是基于贝叶斯定理的一种统计学分类算法。它们可以预测类成员关系的可能性，如给定样本属于一个特定类的概率。如果出现类别重叠现象，贝叶斯分类算法采用两种方法处理这种情况：一是选择后验概率最大的类别，二是选择效用函数最大(或损失最小)的类别。贝叶斯分类也是一种常用的分类方法，它是一种对属性集和类变量的概率关系建模的方法。其理论基础是贝叶斯定理，可用式2.1[2]表示。　　p(c｜x)＝p(x｜c)p(c)/p(x) 　　其中x是类标号未知的数据样本。设c为某种假定，如数据样本I属于某特定类民则P(c｜x)为c成立的概率，也称为类c的先验概率；P(x)为x的支持度。P(c｜x)是规定数据样本x，假定c成立的概率，称作类c的后验概率。P(xvc)是假定c成立的情况下，样本x的支持度，也称为类条件概率。　　准确估计类标号和属性值的每一种可能组合的后验概率非常困难，因为即便属性数目不是很大，仍然需要很大的训练集。此时，贝叶斯定理很有用，因为它允许我们用先验概率P(c)、类条件概率P(x｜c)和P(x)来表示后验概率。　　在比较不同类c的后验概率时，分母P(x)总是常数，因此可以忽略。先验概率P(c)可以通过计算训练集中属于每个类的训练记录所占的比例很容易地估计。因此类c的后验概率P(x｜c)的确定取决于对类条件概率P(x｜c)的估计。对类条件概率P(x｜c)的估计，常使用两种贝叶斯分类方法来实现：朴素贝叶斯分类和贝叶斯信念网络。　　　　(三)基于神经网络的分类　　1、基本思想。经常用于分类的还有人工神经网络方法。神经网络[3]为解决大复杂度问题提供了一种相对来说比较有效的简单方法，它是模仿人脑神经网络的结构和某些工作机制而建立的一种非线形预测模型，经过学习进行模式识别的。其工作机理是通