- 70
- 0
- 约5.85千字
- 约 2页
- 2017-07-16 发布于北京
- 举报
2012年第 2期 福 建 电 脑 101
简述数据挖掘分类方法
黄桂辉 ,郑翠萍 ,郑衍云 。
(1、闽西职业技术学院 福建 龙岩 364021 2、永定气象局 福建 永定 364100)
【摘 要】:本文对数据挖掘、分类进行概念介绍,分类规则挖掘所应用的领域和分类一些常用算法如
决策树 、K临近和粗糙集等以及衡量一个算法标准。
【关键词】:数据挖掘、分类、算法
一 、 概念 测试 的结果 .而树的叶结点表示类别 .从决策树的根结
随着信息的发展 .人们能从各个领域获取的数据 点到叶结点的一条路径对应着一条合取规则 .整个决
越来越多.如何有效的提起这些数据中隐藏 的信息和 策树的产生是一个 自顶 向下的方式 .其大致过程是 :首
知识 .这就产生 了数据挖掘技术 。数据挖掘 (Data 先.通过对一批训练实例集的训练 .生成决策树 ,其次 。
Mining1就是从大量的、不完全的、有噪声 的、模糊 的、随 利用决策树 .根据属性 的取值对一个未知实例集进行
机 的原始数据中.提取隐含在其 中的、人们事先不知道 分类 。
的、但又是潜在有用、可信、新颖的信息和知识的过程。 决策树分类算法 由Quinlan提出了著名 的ID3算
它融合 了多 门学科 .涉及人工智能、数据库技术 、数理 法和 C4.5算法 .随后为了满足大规模数据的处理 .又
统计 、可视化 、并行计算等多方面的领域。 对算法进行多次改进算法 .其中SLIQ和 SPRINT算法
分类就是找出一个类别的概念描述 .它代表 了这 是两个最具代表性的算法
类数据的整体信息.即该类的内涵描述 .并用这种描述 (1)ID3算法
来构造模型 一般用规则或决策树模式表示构造分类 ID3算法的核心是 :在决策树各级结点上选择属性
器的过程一般分为模型训练和使用模型分类两个步 时 ,用信息增益 (inf0rmationgain)作为属性的选择标
骤 .在训练阶段 .分析训练数据集的特点,为每个类别 准 ,以使得在每一个非叶结点进行测试时.能获得关于
产生一个对相应数据集 的准确描述或模型.在测试阶 被测试记录最的类别信息。其具体方法是:检测所有的
段 .利用类别 的描述或模型对测试数据集进行。 属性 .选择信息增益最大的属性产生决策树结点.由该
二 、分类规则挖掘的应用领域 属性的不同取值建立分支 .再对各分支的子集递归调
分类规则挖掘是数据挖掘领域最重要的研究课题 用该方法建立决策树结点的分支 .直到所有子集仅包
之一 .很多数据挖掘的问题都可以转化为分类挖掘 问 含同一类别的数据为止。最后得到一棵决策树 .它可 以
题 。 目前 ,分类挖掘算法 已经具有广泛的应用 ,其中应 用来对新 的样本进行分类
用最集 中的领域包括科学研究、市场营销 、金融投资、 (2)C4.5算法
医疗卫生、保险等。 C4.5算法在继承 ID3算法的优点的基础上对其进
三、分类规则挖掘的算法 行了改进 .用信息增益率代替信息增益来选择属性 .同
分类规则挖掘是数据挖掘 中在应用领域极为广泛 时在树 的构造过程 中对树进行剪枝避免 了过拟合 问
的重要技术之一.目前为止已提出多种算法.对于分类 题,还能够处理属性值缺少的样本 ,提高了抗噪能力。
规则挖掘的算法通常有 以下几种 :决策树方法 、k一最 C4.5算法产生的分类规则仍然易于理解 .准确率较
临近分类法 、贝叶斯方法 、人工神经 网络方法 、粗糙集 高.但是在构造树的过程 中.对数据集进行多次的顺序
方法和关联规则分类法等 这些算法都是其主要的算 扫描和排序 .导致算法的效率降低 .而且 C4.5仍然不
法 。都有其优缺点,也有其适用的数据。还有一些其他 适合大训练集数据
的算法 ,比如遗传算法 .后 向传播分类、基于概念层次
您可能关注的文档
最近下载
- 2025年山东医学高等专科学校单招(数学)历年真题考点含答案解析.docx
- 《QSH0038-2007-钻井液用羧甲基纤维素钠盐技术要求》.pdf VIP
- 《桂海虞衡志》中少数民族风俗研究.doc VIP
- QSH 0048-2007 钻井液用聚丙烯酰胺钾盐技术要求.pdf VIP
- 医疗护理员培训大纲(试行).docx VIP
- 一汽大众ERP-SAP_原创文档.pdf VIP
- Haier海尔洗衣机10公斤超薄嵌入洗烘一体机 EG100HPRO51说明书用户手册.pdf
- 一汽大众ERP-SAP一汽大众ERP-SAP.docx VIP
- 新中国60年统计汇编.pdf VIP
- 自贸区对地区经济的影响研究以我国中西部自贸区为例.docx VIP
原创力文档

文档评论(0)