- 11
- 0
- 约4.95千字
- 约 65页
- 2019-10-22 发布于广东
- 举报
聚类表 谱系图 最短距离法谱系图 最长距离法谱系图 动态聚类分析案例 谢谢大家!请大家批评指正! 要注意的几个概念, * 要注意的几个概念, * * * 通常变量按测量尺度的不同可以分为间隔、有序和名义尺度变量三类。 间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。 有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。 名义尺度变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。 这里主要讨论具有间隔尺度变量的样品聚类分析方法。 * 具体定义请参考:王伟军.信息分析方法与应用[M].清华大学出版社,2014(2). 薛薇.SPSS统计分析方法及应用[M].电子工业出版社,2013. * 《应用多元统计分析》高惠璇,北京大学出版社 * * 选择凝聚点有多重方法: 一是凭经验进行选择 二是随机法 三是最大最小原则 * 二、最长距离法 类与类之间的距离定义为两类最远样品间的距离,即 详细步奏和实例 最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。 递推公式: 最长距离法容易被异常值严重地扭曲,一个有效的方法是将这些异常值单独拿出来后再进行聚类。 最长距离法的聚类步奏 三、中间距离法 类与类之间的距离既不取两类最近样品间的距离,也不取两类最远样品间的距离,而是取介于两者中间的距离。 以上我们对例6.3.1采用了多种系统聚类法进行聚类,其结果都是相同的,原因是该例只有很少几个样品,此时聚类的过程不易有什么变化。一般来说,只要聚类的样品数目不是太少,各种聚类方法所产生的聚类结果一般是不同的,甚至会有大的差异。从下面例子中可以看到这一点。 动态聚类法(快速聚类) 动态聚类法的基本思想是,选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。类的个数k可以事先指定,也可以在聚类过程中确定。选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法。 动态聚类法有许多种方法,一种比较流行的动态聚类法——k均值法。 对比 k均值法的基本步骤 (1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。 (2)对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。 (3)重复步骤(2),直至所有的样品都不能再分配为止。 最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。 k均值法的基本步骤 选择凝聚点 初始分类 分类是否合理 修改分类 最终分类 否 是 主要内容 引言 聚类分析原理 聚类分析的种类 聚类分析应注意的问题 聚类分析应用 聚类分析工具及案例分析 聚类分析应注意的问题 (1)所选择的变量应符合聚类的要求 如果希望依照学校的科研情况对高校进行分类,那么可以选择参加科研的人数、年投入经费、立项课题数、支出经费、科研成果数、获奖数等变量,而不应选择诸如在校学生人数、校园面积、年用水量等变量。因为它们不符合聚类的要求,分类的结果也就无法真实地反映科研分类的情况。 聚类分析应注意的问题 (2)各变量的变量值不应该有数量级上的差异 聚类分析是以各种距离来度量个体间“亲疏”程度的。从各种距离的定义来看,数量级将对距离产生较大的影响,并影响最终的聚类结果。 数据变换方法: 中心化变换 规格化变换 标准化变化 对数变换 平方根变化等 参考教材:《信息分析方法与应用》王伟军,清华大学出版社 聚类分析应注意的问题 (3)各变量间不应有较强的线性相关关系 聚类分析是以各种距离来度量个体间的“亲疏”程度的。从各种距离的定义来看,所选择的每个变量都会在距离中做出“贡献”。如果所选变量之间存在较高的线性关系,能够相互替代,那么计算距离时同类变量将重复“贡献”,将在距离中有较高的权重,因而使最终的聚类结果偏向该类变量。 主要内容 引言 聚类分析原理 聚类分析的种类 聚类分析应注意的问题 聚类分析应用 聚类分析工具及案例分析 聚类分析的应用 经济领域: 帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。 谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 生物学领域 推导植物和动物的分类; 对基因分类,获得对种群的认识 数据挖掘领域 作为其他数学算法的预处理步骤,获得数据分
您可能关注的文档
最近下载
- 传统基材润湿流平(氟碳硅烷嵌段).pdf VIP
- 南京财经大学2024-2025学年第1学期《高等数学(上)》期末考试试卷(B卷)附参考答案.pdf
- C4D课程考试试题及参考答案.doc VIP
- 2025年陕西公务员申论考试真题及答案B卷.docx VIP
- [渝粤教育] 西北工业大学 航天器控制原理 mooc 资料.docx VIP
- 航天器控制原理(西北工业大学)中国大学MOOC 慕课 章节测验 期末考试答案.pdf VIP
- 精品解析:2025年陕西省中考数学试题(原卷版).docx VIP
- 四维度主力跟踪.pdf
- 2022年陕西省中考数学真题(原卷版).docx VIP
- 大众网关控制器和bcm车身控制模块针脚定义非常有用.pdf VIP
原创力文档

文档评论(0)