聚类的基本概念与常用算法-谢宏.ppt

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类的基本概念与常用算法-谢宏

聚类分析 概念与算法 信息工程学院 谢宏 要点 聚类 (Clustering) 的基本概念 数据标准化 对象和类的相似性度量 聚类常用算法 什么是聚类 聚类(Clustering)就是将数据(一般为向量)代表的对象分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。 样本(观测量)聚类 变量聚类 特点:类的个数、特征等都是未知的。 聚类的步骤 采集或收集描述对象的数据样本 从数据样本中提取特征量 对要素的样本数据进行标准化 由样本的特征量(向量)定义相似度量 根据相似度量采用某一类算法计算聚类结果。 聚类数据的标准化 总和标准化 分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 这种标准化方法所得到的新数据满足 标准差标准化 分别求出各聚类要素所对应的数据的均值和标准差,以此对各要素的数据标准化,即 标准化后各要素的平均值为0,标准差为1,即有 极大值标准化 分别求出各聚类要素所对应数据的最大值,以此对各要素的数据标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。 极差标准化 分别求出各聚类要素所对应数据的最大值和最小值,以此对各要素的数据标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。 例:下表给出了某地区9个农业区的7项指标 相似性度量 Q型分类统计量(对样本聚类) 明考夫斯基距离 绝对值距离 q=1 欧氏距离 q=2 且比雪夫距离 q=∞ 兰氏距离 马氏距离 相似性度量 R型分类统计量(对变量聚类) 夹角余弦 相关系数 类与类之间的距离 最小距离法 极小异常值在实际中不多出现,避免极大值的影响 类与类之间的距离 最大距离法 可能被极大值扭曲,删除这些值之后再聚类 类与类之间的距离 类平均距离法 该法利用了所有样本的信息,被认为是较好的聚类距离 类与类之间的距离 重心法 类的重心之间的距离 对异常值不敏感,结果更稳定 主要聚类算法 系统聚类法(hierarchical method) 划分方法(partitioning method) 自组织特征映射(SOM) 模糊聚类 基于模型的方法(model-based method) 系统聚类法 凝聚的(agglomerative)方法(自底向上) 思想:一开始将每个对象作为单独的一组,然后根据同类相近,异类相异的原则,合并对象,直到所有的组合并成一个,或达到一个终止条件为止。 分裂的方法(divisive)(自顶向下) 思想:一开始将所有的对象置于一类,在迭代的每一步中,一个类不断地分为更小的类,直到每个对象在单独的一个类中,或达到一个终止条件。 系统聚类法 特点: 类的个数不需事先定好 需确定距离矩阵 运算量要大,适用于处理小样本数据 划分方法 k-均值算法 k-中心点算法 划分方法 局限性: 不同的初始值,结果可能不同 有些k均值算法的结果与数据输入顺序有关,如在线k均值算法 用爬山式技术(hill-climbing)来寻找最优解,容易陷入局部极小值 自组织特征映射 由芬兰学者Teuvo Kohonen于1981年提出 基本上为输入层和映射层的双层结构,映射层的神经元互相连接,每个输出神经元连接至所有输入神经元 自组织特征映射神经网络结构 自组织特征映射神经网络结构 自组织特征映射网络的学习算法 组织特征映射网络的学习算法 邻域函数 由邻域函数可以看到,以获胜神经元为中心设定了一个邻域半径,称为胜出邻域。学习初期,胜出神经元和其附近的神经元全部接近当时的输入向量,形成粗略的映射。σ随着学习的进行而减小,胜出邻域变窄,胜出神经元附近的神经元数变少。因此,学习方法是一种从粗调整向微调整变化,最终达到预定目标的过程。 (8)在3×3阶距离矩阵中,非对角线元素中最小者为d1,15 = 1.32, 故将G1与G15归并为一类,记为G16,即G16={G1, G15}={(G1, (G2, G8), (G3, (G4, G9))}。再计算G13与G16之间的距离,可得一个新的2×2阶距离矩阵 (9)将G13与G16归并为一类。此时,所有分类对象均被归并为一类。 综合上述聚类过程,可以作出最短距离聚类谱系图。 例:若采用最大类间相似距离,则得到下面的分类谱系图。由图可知,在前三步得到的结果与最小类间相似距离结果是一致的,但是从第四步开始,结果就不一样了。 G1 G2 G8 G3 G4 G9 G5 G7 G6 特点: k事先定好 创建一个初始

文档评论(0)

xy88118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档