第5部分聚类分析学习课件.pptVIP

下载本文档

12
0
约5.08千字
约 35页
2016-12-07 发布于江苏
举报

第5部分聚类分析学习课件.ppt

(C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 (C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 聚类分析根据同类事物应具有相近特性，而不同事物在这些特性上差异较大的假定，将所研究的事务进行分类，这种研究方法被称为聚类cluster. 聚类分析是在没有或不用样本所属类别信息的情况下，依据样本集数据的内在结构，在样本间相似性度量的基础上对样本进行分类的方法聚类分析分类与聚类的区别分类：用已知类别的样本训练集来设计分类器（有监督）聚类：用事先不知样本的类别，而利用样本的先验知识来构造分类器（无监督学习）有监督学习是让计算机去学习我们已经建立好的分类系统。无监督学习看起来非常困难：目标是我们不告诉计算机怎么做，而是让它（计算机）自己去学习怎样做一些事情。主要步骤 1. 数据预处理， 2. 为衡量数据点间的相似度定义一个距离函数， 3. 聚类或分组， 4. 评估输出。数据预处理包括选择数量，类型和特征的标度，它依靠特征选择和特征抽取，特征选择选择重要的特征，特征抽取把输入的特征转化为一个新的显著特征，它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类，数据预处理还包括将孤立点移出数据，孤立点是不依

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第5部分聚类分析学习课件.pptVIP