简述数据挖掘分类方法.pdfVIP

  • 70
  • 0
  • 约5.85千字
  • 约 2页
  • 2017-07-16 发布于北京
  • 举报
2012年第 2期 福 建 电 脑 101 简述数据挖掘分类方法 黄桂辉 ,郑翠萍 ,郑衍云 。 (1、闽西职业技术学院 福建 龙岩 364021 2、永定气象局 福建 永定 364100) 【摘 要】:本文对数据挖掘、分类进行概念介绍,分类规则挖掘所应用的领域和分类一些常用算法如 决策树 、K临近和粗糙集等以及衡量一个算法标准。 【关键词】:数据挖掘、分类、算法 一 、 概念 测试 的结果 .而树的叶结点表示类别 .从决策树的根结 随着信息的发展 .人们能从各个领域获取的数据 点到叶结点的一条路径对应着一条合取规则 .整个决 越来越多.如何有效的提起这些数据中隐藏 的信息和 策树的产生是一个 自顶 向下的方式 .其大致过程是 :首 知识 .这就产生 了数据挖掘技术 。数据挖掘 (Data 先.通过对一批训练实例集的训练 .生成决策树 ,其次 。 Mining1就是从大量的、不完全的、有噪声 的、模糊 的、随 利用决策树 .根据属性 的取值对一个未知实例集进行 机 的原始数据中.提取隐含在其 中的、人们事先不知道 分类 。 的、但又是潜在有用、可信、新颖的信息和知识的过程。 决策树分类算法 由Quinlan提出了著名 的ID3算 它融合 了多 门学科 .涉及人工智能、数据库技术 、数理 法和 C4.5算法 .随后为了满足大规模数据的处理 .又 统计 、可视化 、并行计算等多方面的领域。 对算法进行多次改进算法 .其中SLIQ和 SPRINT算法 分类就是找出一个类别的概念描述 .它代表 了这 是两个最具代表性的算法 类数据的整体信息.即该类的内涵描述 .并用这种描述 (1)ID3算法 来构造模型 一般用规则或决策树模式表示构造分类 ID3算法的核心是 :在决策树各级结点上选择属性 器的过程一般分为模型训练和使用模型分类两个步 时 ,用信息增益 (inf0rmationgain)作为属性的选择标 骤 .在训练阶段 .分析训练数据集的特点,为每个类别 准 ,以使得在每一个非叶结点进行测试时.能获得关于 产生一个对相应数据集 的准确描述或模型.在测试阶 被测试记录最的类别信息。其具体方法是:检测所有的 段 .利用类别 的描述或模型对测试数据集进行。 属性 .选择信息增益最大的属性产生决策树结点.由该 二 、分类规则挖掘的应用领域 属性的不同取值建立分支 .再对各分支的子集递归调 分类规则挖掘是数据挖掘领域最重要的研究课题 用该方法建立决策树结点的分支 .直到所有子集仅包 之一 .很多数据挖掘的问题都可以转化为分类挖掘 问 含同一类别的数据为止。最后得到一棵决策树 .它可 以 题 。 目前 ,分类挖掘算法 已经具有广泛的应用 ,其中应 用来对新 的样本进行分类 用最集 中的领域包括科学研究、市场营销 、金融投资、 (2)C4.5算法 医疗卫生、保险等。 C4.5算法在继承 ID3算法的优点的基础上对其进 三、分类规则挖掘的算法 行了改进 .用信息增益率代替信息增益来选择属性 .同 分类规则挖掘是数据挖掘 中在应用领域极为广泛 时在树 的构造过程 中对树进行剪枝避免 了过拟合 问 的重要技术之一.目前为止已提出多种算法.对于分类 题,还能够处理属性值缺少的样本 ,提高了抗噪能力。 规则挖掘的算法通常有 以下几种 :决策树方法 、k一最 C4.5算法产生的分类规则仍然易于理解 .准确率较 临近分类法 、贝叶斯方法 、人工神经 网络方法 、粗糙集 高.但是在构造树的过程 中.对数据集进行多次的顺序 方法和关联规则分类法等 这些算法都是其主要的算 扫描和排序 .导致算法的效率降低 .而且 C4.5仍然不 法 。都有其优缺点,也有其适用的数据。还有一些其他 适合大训练集数据 的算法 ,比如遗传算法 .后 向传播分类、基于概念层次

文档评论(0)

1亿VIP精品文档

相关文档