第五章聚类分析幻灯片.pptVIP

  • 5
  • 0
  • 约1.8万字
  • 约 130页
  • 2017-05-22 发布于河南
  • 举报
在已知类别的样本集基础上,用确定的或统计的判别函数对模式进行分类,设计分类器,这些已知的样本集称为训练集。根据判读好的训练集解决分类问题,称为有人管理或有教师的分类法。 第五章 聚类分析 没有训练集的情况下的样本分类问题,所选用的样本是预先不知其所属的类别,需要根据样本间的距离或相似性的程度自动地进行分类。 这种无人参预(或没有教师的)识别问题,称为聚类或无人管理的分类。 聚类分析方法是决定描述一个经验数据集的结构类型的一种非参数方法。 相似的数据被集中在一起,从数据集中分离出来,包含在特征空间中的一个模式集,其模式的密度比起周围区域中的密度大,就为一个聚类。 聚类原则:根据样本集,找出各点内在的相似性进行分类,相似的分为一类。 ⑴直观的相似性:从几何距离考虑,设阈值T,它是相似性度量的标准,靠经验确定,对分类影响很大。可用于粗分。 ⑵样本集群性(紧致性):同一类的应该群集,不同类的应该远离。 ⑶特征空间量纲标尺的选择:量纲选择不同,分类也有差异。 为了克服这个缺点,常使特征数据标准化,使它与变量量纲标尺没有关系。 5.1相似性度量和聚类准则 一般用归并相似的模式和分开不相似的模式以形成聚类。 相似性归并是聚类最普通的形式。 各式各样的相似性和距离度量已经作为特征空间中模式样本的聚类准则。 5.1.1相似性度量(Similarity measure) 相似性度量将建

文档评论(0)

1亿VIP精品文档

相关文档