浅析分类方法的发展.docVIP

下载本文档

0
0
约6.13千字
约 10页
2018-04-07 发布于北京
举报
版权申诉

浅析分类方法的发展.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅析分类方法的发展　　摘要：分类是数据挖掘的重要任务之一，分类在实际应用中有广泛的应用，如医疗事业、信用等级等。近年来，分类方法得到了发展，本文对这些方法进行了归纳分析，总结了今后分类方法发展的方向。　　关键词：分类；数据挖掘　　中图分类号：TP301文献标识码：A文章编号：1009-3044(2008)15-20ppp-0c 　　　　The Analysis of Classification Methods Development 　　WANG Jun-yan 　　(Institute of Computer Science and Technology, Taiyuan University of science and technology, Taiyuan 030024, China) 　　Abstract: classification is one important tasks of data mining, it has been used in many application including medical diagnosis, credit grade. In recent years, classification has been developed. The paper concludes the new development of the algorithms. 　　Key words: classification; data mining 　　　　1 引言　　　　分类[1]（Classification）是学会一个分类函数或分类模型（也常常称作分类器），该模型能把数据库中的数据项映射到给定类别中的某一个。分类可用于提取描述重要数据类的模型或预测未来的数据趋势。分类可描述如下：输入数据，或称训练集是一条条记录组成的。每一条记录包含若干条属性，组成一个特征向量。训练集的每条记录还有一个特定的类标签与之对应。该类标签是系统的输入，通常是以往的一些经验数据。一个具体样本的形式可为样本向量：(v1,v2,…,vn:c)。在这里vi表示字段值，c表示类别。　　分类作为数据挖掘的一个重要分支[2]，在商业、医学、军事、体育等领域都有广泛的应用，在过去的十多年中引起很多来自不同领域学者的关注和研究。除了基本的统计分析方法外，数据挖掘技术主要有：神经网络（Neural Network）、决策树（Decision Tree）、粗糙集（Rough Set）、模糊集（Fuzzy Set）、贝叶斯网络（Bayes Network）、遗传算法（Genetic Algorithm）、k近邻分类算法（k Nearest Neighbour）与支持向量机（Support Vector Machine）等。　　不同的分类器有不同的特点，目前有三种分类器评价或比较尺度[1]：1) 预测准确度。预测准确度是用得最多的一种比较尺度，特别是对于预测型分类任务，目前公认的方法是10折分层交叉验证法；2) 计算复杂度。计算复杂度依赖于具体的实现细节和硬件环境，空间和时间的复杂度问题将是非常重要的一个环节；3) 模型描述的简洁度。模型描述越简洁越受欢迎，如采用规则表示的分类器结果就较容易理解，而神经网络方法产生的结果就难以理解。不同的算法有不同的特点，充分认识各算法的优点和存在的缺陷，掌握其适应的环境，方便研究者明确算法的改进和研究，本文主要对算法的研究现状进行分析和比较。　　　　2 分类方法的发展　　　　2.1 决策树的分类方法　　ID3算法是较早的决策树归纳算法。当前最有影响的决策树算法是Quinlan于1986年提出的ID3和1993年提出的C4.5。ID3选择信息增益值最大的属性划分训练样本，其目的是进行分裂时系统的熵最小，从而提高算法的运算速度和精确度。这种方法的优点是描述简单、分类速度快和产生的分类规则易于理解；但缺点是抗噪性差、训练正例和反例较难控制以及是非递增学习算法。C4.5是ID3的改进算法，不仅可以处理离散值属性，还能处理连续值属性，但是也不能进行增量学习。　　SLIQ是一个能够处理连续及离散属性的决策树分类器。该算法针对C4.5分类算法产生的样本反复扫描和排序低效问题，采用了预排序和宽度优先两项技术。预排序技术消除了结点数据集排序，宽度优先为决策树中每个叶结点找到了最优分裂标准。这些技术结合使SLIQ能够处理大规模的数据集，并能对具有大量的类、属性与样本的数据集分类；并且该算法代价不高且生成紧凑精确的树。缺点是内存驻留数据会随着输入纪录数线性正比增大，限制了分类训练的数据量。　　SPRINT方法完全不受内存的限制，并且处理速度很快，且可