2013分类算法综述.docVIP

下载本文档

1
0
约5.18千字
约 8页
2016-12-19 发布于北京
举报
版权申诉

2013分类算法综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《数据挖掘》数据挖掘分类算法综述专业：计算机科学与技术专业学号：姓名：张靖指导教师：陈俊杰时间： 2011年08月21日数据挖掘分类算法综述数据挖掘出现于20世纪80年代后期，是数据库研究中最有应用价值的新领域之一。它最早是以从数据中发现知识(KDD，Knowledge Discovery in Database)研究起步，所谓的数据挖掘(Data Mining，简称为DM)，就从大量的、不完全的、有噪声的、模糊的、随机的、实际应用的数据中提取隐含在其中的、人们不知道的但又有用的信息和知识的过程。分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器)。该模型能把未知类别的样本映射到给定类别中的一种技术。数据分类过程主要包含两个步骤：第一步，建立一个描述已知数据集类别或概念的模型。如图1所示，该模型是通过对数据库中各数据行内容的分析而获得的。每一数据行都可认为是属于一个确定的数据类别，其类别值是由一个属性描述(被称为类别属性)。分类学习方法所使用的数据集称为训练样本集合，因此分类学习又可以称为有指导学习(learning by example)。它是在已知训练样本类别情况下，通过学习建立相应模型，而无指导学习则是在训练样本的类别与类别个数均未知的情况下进行的。通常分类学习所获得的模型可以表示为分类规则形式、决策树形式或数学公式形式。例如，给定一个顾客信用信息数据库，通过学习所获得的分类规则可用于识别顾客是否是具有良好的信用等级或一般的信用等级。分类规则也可用于对今后未知所属类别的数据进行识别判断，同时也可以帮助用户更好的了解数据库中的内容。第二步，利用所获得的模型进行分类操作。首先对模型分类准确率进行估计，例如使用保持(holdout)方法。如果一个学习所获模型的准确率经测试被认为是可以接受的，那么就可以使用这一模型对未来数据行或对象(其类别未知)进行分类。例如，在图2中利用学习获得的分类规则(模型)。对已知测试数据进行模型准确率的评估，以及对未知类别的新数据进行分类预测。图2 数据分类过程中的分类测试分类的具体规则可描述如下：给定一组训练数据的集合T(Training set)，由一条条的数据库记录(Record)组成的，T的每一条记录包含若干条属性(Attribute)组成一个特征向量，用矢量表示，其中对应各非类别属性，可以有不同的值域，当一属性的值域为连续域时，该属性为连续属性(Numerical Attribute)，否则为离散属性(Discrete Attribute)，用c表示类别属性，即数据集有k个不同的类别，那么，T就隐含了一个从矢量X到类别属性的映射函数。分类的目的就是分析输入数据，通过在训练集中的数据表现出来的特性，为每一个类找到一种准确的描述或者模型，采用该种方法(模型)将隐含函数表示出来。构造分类模型的过程一般分为训练和测试两个阶段，在构造模型之前，要求将数据集随机地分为训练数据集和测试数据集。在训练阶段，使用训练数据集通过分析有属性描述的数据库元组来构造模型。在测试阶段，使用测试数据集，来评估模型的分类准确率，如果认为模型的准确率可以接受，就可以用该模型对其它数据元组进分类，一般来说，测试阶段的代价远远低于训练阶段。为了提高分类的准确性、有效性和可伸缩性，在进行分类之前通常要对数据进行预处理，包括以下几方面：大多数数据预处理是数据清理的一种形式，其目的是消除或减少数据噪声和处理缺失数据的信息。噪声代表属性值中的随机错误。在所有大的数据集中噪声以各种形式和排列方式出现，对噪声数据通常关心的问题如下发现重复记录。查找错误的属性值。在分类数据中寻找错误是大型数据集所面临的一个问题。一些数据挖掘工具提供了频率值或分类属性的预测能力值的汇总，可以认为预测能力值接近于0的属性值可能是错误的。数据平滑。数据平滑是一个数据清理和数据转换的过程。一些数据平滑技术努力减少数值属性值的维数。一些分类器，如神经网络，有在分类过程中用函数完成数据平滑的功能。当数据平滑在分类过程中完成时，则称为是内部数据平滑。外部数据平滑是在分类以前进行的，舍入和计算平均值是两种简单的外部数据平滑技术。当我们想使用不支持数值数据的分类器，并想保留数值属性值的原始信息时，用平均值平滑就很合适。在这种情况下，所有的数值属性值被相应的中值所替代。在处理缺失数据时，因为在训练阶段和分类过程本身，缺失数据值会导致一些问题，训练数据中的缺失值会产生不准确的结果，所以必须进行处理。分类方法必须能够处理一个要被分类的元组中的缺失数据，有许多种处理缺失数据的方法。忽略缺失数据。一些数据挖掘算法，包