- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
教学课件课件PPT医学培训课件教育资源教材讲义
第一节 聚类分析
第二节 主成分分析; ;把“对象”分成不同的类别
这些类不是事先给定的,而是直接根据数据的特征确定的;
把相似的东西放在一起,从而使得类别内部的“差异”尽可能小,而类别之间的“差异”尽可能大;
聚类分析就是按照对象之间的“相似”程度把对象进行分类。;聚类分析的“对象”可以是所观察的多个样本,也可以是针对每个样本测得的多个变量;
按照变量对所观察的样本进行分类称为Q型聚类
按照多项指标(变量)对不同的地区(样本)进行分类;
按照样本对多个变量进行分类,则称为R型聚类
按照不同地区的样本数据对多个变量进行分类;
两种聚类没有什么本质区别,实际中人们更感兴趣的通常是根据变量对样本进行分类(Q型聚类)。;按对象的“相似”程度分类;
根据样本的观测数据测度变量之间的相似性程度可以使用夹角余弦、Pearson相关系数等工具,也称为相似系数;
变量间的相似系数越大,说明它们越相近;
根据变量来测度样本之间的相似程度则使用“距离”;
把离得比较近的归为一类,而离得比较远的放在不同的类;;二、相似性的度量;聚类分析中是用“距离”或“相似系数”来度量对象之间的相似性;
31个地区的PM 2.5 数据就是直线上的31个点,每一个点对应一个地区;
如果按照PM 2.5对它们进行分类,就可以把在直线上离得比较近的那些点归为一类。如果再考虑太阳辐射,那么PM 2.5和太阳辐射就是二维平面上的一个点,31个地区就是平面中的31个点 ;
多个样本就是高维空间中的一个点,31个地区就是高维空间中的31个点;
各个点之间距离的远近就是分类的依据.;在对样本进行分类时,度量样本之间的相似性使用点间距离。
点间距离的计算方法主要有
欧氏距离(Euclidean distance)
平方欧氏距离(Squared Euclidean distance)
Block距离(Block distance)
Chebychev距离(Chebychev distance)
马氏距离(Minkovski distance)
最常用的是平方欧氏距离;;;在系统聚类法中,当类别多于1个时,就涉及到如何定义两个类别之间的距离问题;
计算类间距离(与上面介绍的点间距离不同)的方法有很多,不同方法会得到不同的聚类结果;
实际中较常用的是离差平方和法(Ward??s method),又称Ward法。;;;实际例子;校准化 (Z)——消除量纲和数量级的影响;其它标准化方法;系统聚类;聚类结果;解读;系统聚类事先不需要确定要分多少类,聚类过程一层层进行,最后得出所有可能的类别结果,根据具体情况确定最后需要的类别。该方法可以绘制出树状聚类图,方便使用者直观选择类别,但其缺点是计算量较大,对大批量数据的聚类效率不高;
K-均值聚类事先需要确定要分的类别数据,计算量要小得多,效率比系统聚类要高,也被称为快速聚类(quick cluster)。;第1步:确定要分的类别数目K
需要研究者自己确定;
在实际应用中,往往需要研究者根据实际问题反复尝试,得到不同的分类并进行比较,得出最后要分的类别数量;
第2步:确定K个类别的初始聚类中心
要求在用于聚类的全部样本中,选择K个样本作为K个类别的初始聚类中心;
与确定类别数目一样,原始聚类中心的确定也需要研究者根据实际问题和经验来综合考虑;
使用SPSS进行聚类时,也可以由系统自动指定初始聚类中心;;第3步:根据确定的K个初始聚类中心,依次计算每个样本到K个聚类中心的距离欧氏距离,并根据距离最近的原则将所有的样本分到事先确定的K个类别中;
第4步:根据所分成的K个类别,计算出各类别中每个变量的均值,并以均值点作为新的K个类别中心。根据新的中心位置,重新计算每个样本到新中心的距离,并重新进行分类;;第5步:重复第4步,直到满足终止聚类条件为止;
迭代次数达到研究者事先指定的最大迭代次数(SPSS隐含的迭代次数是10次);
新确定的聚类中心点与上一次迭代形成的中心点的最大偏移量小于指定的量(SPSS隐含的是0.02);
第6步:方差分析,看各变量在不同类别之间的差异是否显著;
K-均值聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。类别数目的确定具有一定的主主观性,究竟分多少类合适,需要研究者对研究问题的了解程度、相关知识和经验;;【例】根据我国31个省市自治区2006年的6项主要经济指标数据,采用系统聚类法进行分类,并对结果进行分析。;? 数据检查
若原始变量取值差异较大,应先将原始数据进行标准化,避免变量值差异过大对分类结果的影响
可以先观察6项经济指标的有关描述统计量 ;? 数据标准化(SPSS)
【Analyze】?【Descriptive Statistics】? 【Descriptives】?主对话
您可能关注的文档
- 腾讯品牌要素的设计教学幻灯片.pptx
- 藤县无籽西瓜的发展状况与对策教学幻灯片.pptx
- 提袋的设计教学幻灯片.ppt
- 提高10m内的分辨距离创新型QC报告教学幻灯片.ppt
- 提高30MW发电机组发电量教学幻灯片.ppt
- 提高玻化微珠外墙外保温施工质量教学幻灯片.ppt
- 提高产蛋性能的专利产品(增蛋素)的综合应用(周海云)教学幻灯片.ppt
- 提高肠道清洁率教学幻灯片.ppt
- 提高蛋鸡生产性能——增蛋素教学幻灯片.ppt
- 提高电除尘阴极振打系统工作效率教学幻灯片.ppt
- 中国国家标准 GB/T 18759.2-2025机械电气设备 开放式数控系统 第2部分:体系结构.pdf
- 《GB 37241-2025可燃性粉尘惰化安全规范》.pdf
- GB/T 18759.2-2025机械电气设备 开放式数控系统 第2部分:体系结构.pdf
- GB/T 41771.12-2025现场设备集成 第12部分:PROFINET.pdf
- 《GB/T 41771.12-2025现场设备集成 第12部分:PROFINET》.pdf
- 中国国家标准 GB/T 41771.12-2025现场设备集成 第12部分:PROFINET.pdf
- GB/T 41771.11-2025现场设备集成 第11部分:行规 PROFIBUS.pdf
- 《GB/T 41771.11-2025现场设备集成 第11部分:行规 PROFIBUS》.pdf
- 中国国家标准 GB/T 41771.11-2025现场设备集成 第11部分:行规 PROFIBUS.pdf
- 《GB/T 32151.33-2025温室气体排放核算与报告要求 第33部分:颜料生产企业》.pdf
最近下载
- 山东省威海市2020-2021学年高二上学期期末考试英语试题.docx VIP
- 山东省威海市2021-2022学年高二上学期期末考试 生物.pdf
- 眼视光学理论与方法知到智慧树期末考试答案题库2024年秋温州医科大学.docx VIP
- 山东省威海市2021-2022学年高二上学期期末考试生物含答案.pdf VIP
- 2025年新疆交通运输厅所属事业单位面向厅系统开展岗位竞聘考试的笔试备考题库及答案详解1套.docx VIP
- 山东省威海市2021-2022学年高二上学期期末考试英语试题.pdf VIP
- 全球物联网智能接近传感器市场研究及投资分析报告.docx VIP
- 2021-2027全球与中国智慧城市的物联网市场现状及未来发展趋势.docx VIP
- 无人机UOM考试题库及答案详解.doc VIP
- 高职应用写作(第六版)课件 第5--7章 竞聘词 社会实践报告;实习报告 毕业设计报告 毕业论文;求职文书.ppt
原创力文档


文档评论(0)