- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据分析方法及软件应用
授课教师:赵晖 副教授
北京交通大学
2015年5月
聚类分析
5.1 聚类分析的一般问题
5.2 层次聚类 (重点)
5.3 K-Means聚类
5.1.1 聚类分析的意义
聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度(各变量取值上的总体差异程度)在没有先验知识(没有事先指定的分类标准)的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。
例如,学校里有些同学经常在一起,关系比较密切,而他们与另一些同学却很少来往,关系比较疏远。究其原因可能会发现,经常在一起的同学的家庭情况、性格、学习成绩、课余爱好等方面有许多共同之处,而关系比较疏远的同学在这些方面有较大的差异性。为了研究家庭情况、性格、学习成绩、课余爱好等是否会成为划分学生小群体的主要决定因素,可以从有关这些方面的数据入手,进行客观分组,然后比较所得的分组是否与实际相吻合。对学生的客观分组就可采用聚类分析方法。
5.1.2 聚类分析中“亲疏程度”的度量方法
聚类分析中,个体之间的“亲疏程度”是极为重要的,它将直接影响最终的聚类结果。对“亲疏”程度的测度一般有两个角度:第一,个体间的相似程度;第二,个体间的差异程度。衡量个体间的相似程度通常可采用简单相关系数等,个体间的差异程度通常通过某种距离来测度。
为定义个体间的距离应先将每个样本数据看成k维空间的一个点。通常,点与点之间的距离越小,意味着他们越“亲密”,越有可能聚成一类,点与点之间的距离越大,意味着他们越“疏远”,越有可能分别属于不同的类。
个体间距离的定义会受变量类型的影响。
例:下表是同一批客户对经常光顾的五座商场在购物环境和服务质量两方面的平均得分,现希望根据这批数据将五座商场分类。
编号
购物环境
服务质量
A商场
73
68
B商场
66
64
C商场
84
82
D商场
91
88
E商场
94
90
1、定距型变量个体间距离的计算方式
欧式距离(Euclidean distance)
平方欧式距离(Squared Euclidean distance )
=上式的平方
切比雪夫(Chebychev)距离
Block距离
夹角余弦系数、相关系数等
选上统计量中的相似性矩阵的输出结果
2、二值变量个体间距离的计算方式
简单匹配系数(Simple Matching)
雅科比系数(Jaccard)
3、定序变量的计算方式
对等级值进行标准化
4、计数变量个体间距离的计算方式
卡方(Chi-Square measure)距离
Phi方(Phi-Square measure)距离
5.1.3 聚类分析的几点说明
所选择的变量应符合聚类的要求:所选变量应能够从不同的侧面反映我们研究的目的;
各变量间不应有较强的线性相关关系
各变量的变量值不应有数量级上的差异(对数据进行标准化处理):聚类分析是以各种距离来度量个体间的“亲疏”程度的,从上述各种距离的定义看,数量级将对距离产生较大的影响,并影响最终的聚类结果。
学校
参加科研人数(人)
投入经费(元)
立项课题数(项)
1
410
438000
19
2
336
173000
21
3
490
220000
8
样本的欧氏距离
元
十万元
(1,2)
265000
74.07
(1,3)
416000
80.86
(2,3)
151000
154.56
以“元”为计量单位时,样本2和3的距离最小,关系最“亲近”,其次是样本1和样本3,样本1和样本2的距离最远,关系最“疏远”。这里,投入经费起了决定作用;当以“十万元”为计量单位时,样本1和2的距离最近,关系最“密切”,其次是样本1和样本3,样本2和样本3的距离最远,关系最“疏远”。这里,参加科研人数起了决定作用。由此可见,变量的数量级对距离有较大影响,进而影响最终的聚类结果。为解决上述问题,聚类分析之前应首先消除数量级对聚类的影响。消除数量级方法较多,其中标准化处理是最常用方法之一。
5.2 层次聚类
5.2.1 层次聚类的两种类型和两种方式
5.2.2 个体与小类、小类与小类间“亲疏程度”的度量方法
5.2.3 层次聚类的基本操作
5.2.1 层次聚类的两种类型和两种方式
层次聚类又称系统聚类,简单地讲是指聚类过程是按照一定层次进行的。
层次聚类有两种类型,分别是Q型聚类和R型聚类;
层次聚类的聚类方式又有两种,分别是凝聚方式聚类和分解方式聚类。
5.2.1 层次聚类的两种类型和两种方式
Q型聚类:对样本进行聚类,使具有相似特征的样本聚集在一起,差异性大的样本分离开来。
R型聚类:对变量进行聚类,使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量
您可能关注的文档
- 中山岐江公园要点.pptx
- 中枢神经系统及影像要点.pptx
- 叔本华的人生哲学要点.pptx
- 中枢系统药物要点.pptx
- 属于你个人的色彩及风格要点.pptx
- 术前评估和准备要点.pptx
- 儿童谜语大全及要点.docx
- 儿童益生菌说明要点.docx
- 束支传导阻滞病人围麻醉期处理策略要点.pptx
- 尔雅创新创业执行力作业要点.docx
- 城市固体废弃物应变硬化机制与强度参数确定方法_李俊超.pdf
- 大直径污水排海管顶管施工对反力墙影响分析_薛宏伟.pdf
- 《广州市地下综合管廊专用人民防空防护设备质量检测及验收标准(试行)》2024.pdf
- DB32_T 4152-2021 水利工程液化地基处理技术规范.pdf
- 填埋垃圾渗透特性室内外测试研究_詹良通.pdf
- 压缩空气排水井在填埋场滑移控制中的应用及分析_何海杰.pdf
- 基于污染物击穿时间的填埋场复合衬垫厚度简化设计方法_张春华.pdf
- 城市垃圾填埋场地震稳定分析及永久位移计算_柯瀚.pdf
- 土工膜_GCL界面剪切强度特性的试验研究_张宏伟.pdf
- DBJ_T45-014-2016 地下工程防水技术规程.pdf
最近下载
- 国开02047_政府经济学-机考复习资料.docx VIP
- 特殊教育:培智部五年级生活数学B卷.docx
- OBE理念指导下的软件实训课教学改革实践探索.docx VIP
- 安检现场处置单位广州民航王超58课件.pptx VIP
- (2025春新版本)七年级下册道德与法治知识点总结.pdf VIP
- 微软-2025-该年前沿企业诞生(英译中).pdf
- 2024年华为认证HCIE存储H13-629必备考试题库大全(含答案).docx VIP
- 房地产管理新加坡房地产经济.docx VIP
- T_CERDS 3-2022 企业ESG评价体系.docx VIP
- 2024年公安机关人员基础知识考试题库及答案 (新版).docx
文档评论(0)