- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类的基本概念与常用算法-谢宏
聚类分析概念与算法 信息工程学院 谢宏 要点 聚类 (Clustering) 的基本概念 数据标准化 对象和类的相似性度量 聚类常用算法 什么是聚类 聚类(Clustering)就是将数据(一般为向量)代表的对象分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。 样本(观测量)聚类 变量聚类 特点:类的个数、特征等都是未知的。 聚类的步骤 采集或收集描述对象的数据样本 从数据样本中提取特征量 对要素的样本数据进行标准化 由样本的特征量(向量)定义相似度量 根据相似度量采用某一类算法计算聚类结果。 聚类数据的标准化 总和标准化 分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 这种标准化方法所得到的新数据满足 标准差标准化 分别求出各聚类要素所对应的数据的均值和标准差,以此对各要素的数据标准化,即 标准化后各要素的平均值为0,标准差为1,即有 极大值标准化 分别求出各聚类要素所对应数据的最大值,以此对各要素的数据标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。 极差标准化 分别求出各聚类要素所对应数据的最大值和最小值,以此对各要素的数据标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。 例:下表给出了某地区9个农业区的7项指标 相似性度量 Q型分类统计量(对样本聚类) 明考夫斯基距离 绝对值距离 q=1 欧氏距离 q=2 且比雪夫距离 q=∞ 兰氏距离 马氏距离 相似性度量 R型分类统计量(对变量聚类) 夹角余弦 相关系数 类与类之间的距离 最小距离法 极小异常值在实际中不多出现,避免极大值的影响 类与类之间的距离 最大距离法 可能被极大值扭曲,删除这些值之后再聚类 类与类之间的距离 类平均距离法 该法利用了所有样本的信息,被认为是较好的聚类距离 类与类之间的距离 重心法 类的重心之间的距离 对异常值不敏感,结果更稳定 主要聚类算法 系统聚类法(hierarchical method) 划分方法(partitioning method) 自组织特征映射(SOM) 模糊聚类 基于模型的方法(model-based method) 系统聚类法 凝聚的(agglomerative)方法(自底向上) 思想:一开始将每个对象作为单独的一组,然后根据同类相近,异类相异的原则,合并对象,直到所有的组合并成一个,或达到一个终止条件为止。 分裂的方法(divisive)(自顶向下)思想:一开始将所有的对象置于一类,在迭代的每一步中,一个类不断地分为更小的类,直到每个对象在单独的一个类中,或达到一个终止条件。 系统聚类法 特点: 类的个数不需事先定好 需确定距离矩阵 运算量要大,适用于处理小样本数据 划分方法 k-均值算法 k-中心点算法 划分方法 局限性: 不同的初始值,结果可能不同 有些k均值算法的结果与数据输入顺序有关,如在线k均值算法 用爬山式技术(hill-climbing)来寻找最优解,容易陷入局部极小值 自组织特征映射 由芬兰学者Teuvo Kohonen于1981年提出 基本上为输入层和映射层的双层结构,映射层的神经元互相连接,每个输出神经元连接至所有输入神经元 自组织特征映射神经网络结构 自组织特征映射神经网络结构 自组织特征映射网络的学习算法 组织特征映射网络的学习算法 邻域函数 由邻域函数可以看到,以获胜神经元为中心设定了一个邻域半径,称为胜出邻域。学习初期,胜出神经元和其附近的神经元全部接近当时的输入向量,形成粗略的映射。σ随着学习的进行而减小,胜出邻域变窄,胜出神经元附近的神经元数变少。因此,学习方法是一种从粗调整向微调整变化,最终达到预定目标的过程。 (8)在3×3阶距离矩阵中,非对角线元素中最小者为d1,15 = 1.32, 故将G1与G15归并为一类,记为G16,即G16={G1, G15}={(G1, (G2, G8), (G3, (G4, G9))}。再计算G13与G16之间的距离,可得一个新的2×2阶距离矩阵 (9)将G13与G16归并为一类。此时,所有分类对象均被归并为一类。 综合上述聚类过程,可以作出最短距离聚类谱系图。 例:若采用最大类间相似距离,则得到下面的分类谱系图。由图可知,在前三步得到的结果与最小类间相似距离结果是一致的,但是从第四步开始,结果就不一样了。 G1 G2 G8 G3 G4 G9 G5 G7 G6 特点: k事先定好 创建一个初始
您可能关注的文档
- FRAM铁电存储器.doc
- 文化生活前三课复习.ppt
- 全屋净水系统.doc
- 双nat路由试验.doc
- 浅谈小学语文课堂中学生注意力的培养郭静.doc
- 第三章合同的效力(修改稿).doc
- 遵义电大分校.doc
- 分数除法之解决问题一小测验.doc
- 八年级地理下册说课稿.doc
- 45项操作目录及通知.doc
- 人教版九年级英语全一册单元速记•巧练Unit13【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit9【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit11【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit14【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit8【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit4【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit13【单元测试·基础卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit7【速记清单】(原卷版+解析).docx
- 苏教版五年级上册数学分层作业设计 2.2 三角形的面积(附答案).docx
- 人教版九年级英语全一册单元速记•巧练Unit12【单元测试·基础卷】(原卷版+解析).docx
最近下载
- 宏观经济学计算题大全.doc VIP
- 苏教版数学四年级上册第八单元认识射线、直线和角(课件).pptx
- 某市棚户区改造中区市政道路建设工程路面天然砂砾垫层施工方案.doc
- 淀粉制品公司风险分级管控与隐患排查治理双体系双控手册2022-2024.doc
- 福建省 政和县志.pdf
- 知识产权对策、研究成果管理及合作权益分配.pdf VIP
- 人工智能对学习、教学和教育的影响-The Impact of Artificial Intelligence on Learning, Teaching, and Education.docx
- 中越边广西龙邦镇护龙村跨国婚姻问题研究及对策.doc VIP
- 小学道德与法治六年级下册《我们生存的家园》教学设计及反思.doc
- 宏观经济学计算题.docx VIP
文档评论(0)