- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分类 俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的省份成若干类,就有很多种分类法; 可以按照地域或自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础设施等指标; 既可以用某一项来分类,也可以同时考虑多项指标来分类。 聚类分析 对于一个数据,人们既可以对观测值(事件,样品)来分类(相当于对数据中的行分类),也可以对变量(指标)进行分类(相当于对数据中的列分类) 。 比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类, 当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。 第四节 Q型系统聚类法 系统聚类法(层次聚类法):在聚类分析的开始,每个样本自成一类;然后 ,按照某种方法度量所有样本之间的亲疏程度,并把最相似的样本首先聚成一小类;接下来,度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;再接下来,再度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;如此反复,直到所有样本聚成一类为止。 聚类分析也是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与回归分析、判别分析一起被称为多元分析的三大方法。 1. 聚类的目的 使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。 2. 聚类的种类 根据分类的原理可将聚类分析分为: 系统聚类与快速聚类 根据分类的对象可将聚类分析分为: 系统Q型与R型(即样品聚类clustering for individuals 与指标聚类clustering for variables) 设有n个样本单位,每个样本测得p项指标(变量),原始资料阵为: Q型聚类以距离作为统计量,R型聚类以相似系数作为统计量。 3. 聚类分析数据格式 饮料数据(drink.sav ) 16种饮料的热量、咖啡因、钠及价格四种变量 (一)距离 Q型聚类统计量(距离) 把n个样本点看成p维空间的n个点 1、绝对距离(Block距离) 2、欧氏距离(Euclidean distance) Q型聚类统计量(距离) 3、明考斯基距离(Minkowski) 4、兰氏距离 5、马氏距离 6、切比雪夫距离(Chebychev) 2. 明氏(Minkowski )距离 实例计算 绝对值距离 Euclidian距离的平方 Euclidian距离 变量标准化后的Euclidian距离 4. Lance和Williams 距离 5. 斜交空间距离 6. 配合距离 步骤: 1、对数据进行变换处理,消除量纲 2、构造n个类,每个类只包含一个样本计算 3、n个样本两两间的距离{dij} 4、合并距离最近的两类为一新类 5、计算新类与当前各类的距离,重复(4) 6、画聚类图 7、决定类的个数和类 最小距离法(single linkage method) 极小异常值在实际中不多出现,避免极大值的影响 最短距离法案例 以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。 G1={辽宁},G2={浙江},G3={河南},G4={甘肃},G5={青海} d12=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-3.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5 D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0 (习作1)最短距离法 (二)最长距离法(complete linkage,furthest neighbor) (三)中间距离法(median method) (四)中间距离法的变形——可变法 (五)类平均法(average
您可能关注的文档
最近下载
- 最新部编人教版小学4四年级语文上册(全册)完整教案【新版】 .pdf VIP
- 2025至2030年中国新疆能源产业发展动态及投资前景预测报告.docx
- 雨污水管网改造工程(市政部分)方案、初步设计及施工图设计--排水管道工程施工图(一期)设计总说明.doc
- 读后续写写作技巧Atechnique--toshownottotell.pptx
- 道路安全管理条例 .pdf VIP
- 合同纠纷民事案由.doc VIP
- 熨烫衣服教学课件.ppt VIP
- (2025秋新版)人教版二年级数学上册全册教案(教学设计).docx
- 2025江苏南通高新控股集团及下属子企业招聘8人笔试历年参考题库附带答案详解(10卷合集).docx
- 防机械伤害培训课件.pptx VIP
文档评论(0)