聚类的基本概念与常用算法-谢宏.ppt

下载文档 降价啦

5
0
约4.44千字
约 40页
2018-03-29 发布于河南
举报
版权申诉
保障服务

聚类的基本概念与常用算法-谢宏.ppt

1、本文档共40页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

聚类的基本概念与常用算法-谢宏

聚类分析概念与算法信息工程学院谢宏要点聚类 (Clustering) 的基本概念数据标准化对象和类的相似性度量聚类常用算法什么是聚类聚类（Clustering）就是将数据(一般为向量)代表的对象分组成为多个类（Cluster）。在同一个类内对象之间具有较高的相似度，不同类之间的对象差别较大。样本（观测量）聚类变量聚类特点：类的个数、特征等都是未知的。聚类的步骤采集或收集描述对象的数据样本从数据样本中提取特征量对要素的样本数据进行标准化由样本的特征量(向量)定义相似度量根据相似度量采用某一类算法计算聚类结果。聚类数据的标准化总和标准化分别求出各聚类要素所对应的数据的总和，以各要素的数据除以该要素的数据的总和，即这种标准化方法所得到的新数据满足标准差标准化分别求出各聚类要素所对应的数据的均值和标准差，以此对各要素的数据标准化，即标准化后各要素的平均值为0，标准差为1，即有极大值标准化分别求出各聚类要素所对应数据的最大值，以此对各要素的数据标准化，即经过这种标准化所得的新数据，各要素的极大值为1，其余各数值小于1。极差标准化分别求出各聚类要素所对应数据的最大值和最小值，以此对各要素的数据标准化，即经过这种标准化所得的新数据，各要素的极大值为1，极小值为0，其余的数值均在0与1之间。例:下表给出了某地区9个农业区的7项指标相似性度量 Q型分类统计量(对样本聚类) 明考夫斯基距离绝对值距离 q=1 欧氏距离 q=2 且比雪夫距离 q=∞ 兰氏距离马氏距离相似性度量 R型分类统计量(对变量聚类) 夹角余弦相关系数类与类之间的距离最小距离法极小异常值在实际中不多出现，避免极大值的影响类与类之间的距离最大距离法可能被极大值扭曲，删除这些值之后再聚类类与类之间的距离类平均距离法该法利用了所有样本的信息，被认为是较好的聚类距离类与类之间的距离重心法类的重心之间的距离对异常值不敏感，结果更稳定主要聚类算法系统聚类法（hierarchical method）划分方法（partitioning method）自组织特征映射（SOM）模糊聚类基于模型的方法（model-based method）系统聚类法凝聚的（agglomerative）方法（自底向上）思想：一开始将每个对象作为单独的一组，然后根据同类相近，异类相异的原则，合并对象，直到所有的组合并成一个，或达到一个终止条件为止。分裂的方法（divisive）（自顶向下）思想：一开始将所有的对象置于一类，在迭代的每一步中，一个类不断地分为更小的类，直到每个对象在单独的一个类中，或达到一个终止条件。系统聚类法特点：类的个数不需事先定好需确定距离矩阵运算量要大，适用于处理小样本数据划分方法 k－均值算法 k－中心点算法划分方法局限性：不同的初始值，结果可能不同有些k均值算法的结果与数据输入顺序有关，如在线k均值算法用爬山式技术（hill-climbing）来寻找最优解，容易陷入局部极小值自组织特征映射由芬兰学者Teuvo Kohonen于1981年提出基本上为输入层和映射层的双层结构,映射层的神经元互相连接，每个输出神经元连接至所有输入神经元自组织特征映射神经网络结构自组织特征映射神经网络结构自组织特征映射网络的学习算法组织特征映射网络的学习算法邻域函数由邻域函数可以看到，以获胜神经元为中心设定了一个邻域半径，称为胜出邻域。学习初期，胜出神经元和其附近的神经元全部接近当时的输入向量，形成粗略的映射。σ随着学习的进行而减小，胜出邻域变窄，胜出神经元附近的神经元数变少。因此，学习方法是一种从粗调整向微调整变化，最终达到预定目标的过程。 (8)在3×3阶距离矩阵中，非对角线元素中最小者为d1,15 = 1.32, 故将G1与G15归并为一类，记为G16，即G16={G1, G15}={(G1, (G2, G8), (G3, (G4, G9))}。再计算G13与G16之间的距离，可得一个新的2×2阶距离矩阵 (9)将G13与G16归并为一类。此时，所有分类对象均被归并为一类。综合上述聚类过程，可以作出最短距离聚类谱系图。例：若采用最大类间相似距离，则得到下面的分类谱系图。由图可知，在前三步得到的结果与最小类间相似距离结果是一致的，但是从第四步开始，结果就不一样了。 G1 G2 G8 G3 G4 G9 G5 G7 G6 特点： k事先定好创建一个初始