第三章-聚类分析.pdf

下载文档 降价啦

3
0
约6.9万字
约 30页
2017-09-27 发布于湖北
举报
版权申诉
保障服务

第三章-聚类分析.pdf

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第三章-聚类分析

第三章聚类分析 3.1 问题概述一般地，以单个变量属性取值对对象进行划分的分类是直观的，但对于具有多个变量属性取值的对象进行划分就难以直观了。例如根据学生的n门成绩x ,x ,...x 对学生 1 2 n 进行等级划分，如果事先在定义综合评定条件下，对学生已进行了综合评定，得到的综，则对个学生的成绩与评价数据 (k) (k) (k) (k) ，合评定结果为 Y m (x ,x ,...x , Y ) 1 2 n k 1,2,...m，可以根据Y(k) 的取值对学生进行划分，此时称为“分类”，这里把Y(k) 称 (k) 为先验知识；如果事先没有根据成绩x ,x ,...x 对学生进行评定，即在没有Y 的情况 1 2 n 下，直接根据 (k) (k) (k) m个学生的n个成绩(x ,x ,...x ) 对学生进行等级划分，k 1,2,...m， 1 2 n 划分的依据是“相似度”，即根据学生成绩“相似度”判别学生是否“相似”，使“相似度”大的学生尽可能划分为一类，而使“相似度”小的学生尽可能划分为不同的类，这样的划分称为“聚类”，即未知先验知识 Y(k) 下，对学生的等级划分。由于“相似度” 可以针对问题的特点定义，因而，聚类结果会发现一些表面看不到的信息，如未必是根据综合评定结果 (k) Y 的取值大小来划分，而可能是根据成绩特点或学生特长来划分。由于聚类分析的这一特点，当面对的海量数据关系不明确时，常常是应用聚类分析来了解数据特点，在明确数据分类特点的情况下，从中选择有代表性的数据类作建模分析。 3.2 聚类分析概述分类可分为有监督的分类（Supervised Classification）和无监督的分类（Unsupervised Classification ）两种类型。有监督的分类，又称为有教师的分类或有指导的分类。在这类问题中，已知模式的类别和某些样本的类别属性，首先用具有类别标记的样本对分类系统进行学习和训练，使该分类系统能够对这些已知样本进行正确分类，然后用学习好的分类系统对未知的样本进行分类，这需要我们对分类的问题要有足够的先验知识。在没有先验知识的情况下，则需要借助无监督的分类技术。聚类就是按照一定的要求和规律对事物进行区分和分类的过程，在这一过程中没有任何关于分类的先验知识，没有教师指导，仅靠事物间的相似性作为类属划分的准则，因此属于无监督分类的范畴。聚类分析则是指用数学的方法研究和处理给定对象的分类，把一个没有类别标记的样本集按某种准则 81 分成若干个子集（类），使相似的样本尽可能归为一类，而不相似的样本尽量划分到不同的类中。 1、聚类主要方法聚类分析的算法可以分为一下几大类：分裂法、层次法、基于密度的方法、基于网格的方法和基于模型的方法等。（1）分裂法（Partitioning Methods ）给定一个有N 个元组或者记录的数据集，分裂法将构造C 个分组，每一个分组就代表一个聚类，C N 。而且这C 个分组满足以下条件： 1）每一个分组至少包含一个数据记录。 2 ）每一个数据记录属于且仅属于一个分组（这个要求在某些模糊聚类算法中不适