第三章-聚类分析.pdf

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章-聚类分析

第三章 聚类分析 3.1 问题概述 一般地,以单个变量属性取值对对象进行划分的分类是直观的,但对于具有多个变 量属性取值的对象进行划分就难以直观了。例如根据学生的n门成绩x ,x ,...x 对学生 1 2 n 进行等级划分,如果事先在定义综合评定条件下,对学生已进行了综合评定,得到的综 ,则对 个学生的成绩与评价数据 (k) (k) (k) (k) , 合评定结果为 Y m (x ,x ,...x , Y ) 1 2 n k 1,2,...m,可以根据Y(k) 的取值对学生进行划分,此时称为“分类”,这里把Y(k) 称 (k) 为先验知识;如果事先没有根据成绩x ,x ,...x 对学生进行评定,即在没有Y 的情况 1 2 n 下,直接根据 (k) (k) (k) m个学生的n个成绩(x ,x ,...x ) 对学生进行等级划分,k 1,2,...m, 1 2 n 划分的依据是“相似度”,即根据学生成绩“相似度”判别学生是否“相似”,使“相似 度”大的学生尽可能划分为一类,而使“相似度”小的学生尽可能划分为不同的类,这 样的划分称为“聚类”,即未知先验知识 Y(k) 下,对学生的等级划分。由于“相似度” 可以针对问题的特点定义,因而,聚类结果会发现一些表面看不到的信息,如未必是根 据综合评定结果 (k) Y 的取值大小来划分,而可能是根据成绩特点或学生特长来划分。由 于聚类分析的这一特点,当面对的海量数据关系不明确时,常常是应用聚类分析来了解 数据特点,在明确数据分类特点的情况下,从中选择有代表性的数据类作建模分析。 3.2 聚类分析概述 分类可分为有监督的分类(Supervised Classification)和无监督的分类(Unsupervised Classification )两种类型。有监督的分类,又称为有教师的分类或有指导的分类。在这类问 题中,已知模式的类别和某些样本的类别属性,首先用具有类别标记的样本对分类系统进行 学习和训练,使该分类系统能够对这些已知样本进行正确分类,然后用学习好的分类系统对 未知的样本进行分类,这需要我们对分类的问题要有足够的先验知识。 在没有先验知识的情况下,则需要借助无监督的分类技术。聚类就是按照一定的要求 和规律对事物进行区分和分类的过程,在这一过程中没有任何关于分类的先验知识,没有教 师指导,仅靠事物间的相似性作为类属划分的准则,因此属于无监督分类的范畴。聚类分析 则是指用数学的方法研究和处理给定对象的分类,把一个没有类别标记的样本集按某种准则 81 分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的 类中。 1、聚类主要方法 聚类分析的算法可以分为一下几大类:分裂法、层次法、基于密度的方法、基于网格 的方法和基于模型的方法等。 (1)分裂法 (Partitioning Methods ) 给定一个有N 个元组或者记录的数据集,分裂法将构造C 个分组,每一个分组就代表 一个聚类,C N 。而且这C 个分组满足以下条件: 1)每一个分组至少包含一个数据记录。 2 )每一个数据记录属于且仅属于一个分组(这个要求在某些模糊聚类算法中不适

您可能关注的文档

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档