第5部分聚类分析学习课件.pptVIP

  • 12
  • 0
  • 约5.08千字
  • 约 35页
  • 2016-12-07 发布于江苏
  • 举报
(C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 (C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 聚类分析 根据同类事物应具有相近特性,而不同事物在这些特性上差异较大的假定,将所研究的事务进行分类,这种研究方法被称为聚类cluster. 聚类分析是在没有或不用样本所属类别信息的情况下,依据样本集数据的内在结构,在样本间相似性度量的基础上对样本进行分类的方法 聚类分析 分类与聚类的区别 分类:用已知类别的样本训练集来设计分类器(有监督) 聚类:用事先不知样本的类别,而利用样本的先验知识来构造分类器(无监督学习) 有监督学习是让计算机去学习我们已经建立好的分类系统。 无监督学习看起来非常困难:目标是我们不告诉计算机怎么做,而是让它(计算机)自己去学习怎样做一些事情。 主要步骤 1. 数据预处理, 2. 为衡量数据点间的相似度定义一个距离函数, 3. 聚类或分组, 4. 评估输出。 数据预处理包括选择数量,类型和特征的标度,它依靠特征选择和特征抽取,特征选择选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类,数据预处理还包括将孤立点移出数据,孤立点是不依

文档评论(0)

1亿VIP精品文档

相关文档