田间试验与统计方法12_聚类与主成分分析演示幻灯片.pptVIP

下载本文档

5
0
约6.16千字
约 82页
2018-02-23 发布于天津
举报
版权申诉

田间试验与统计方法12_聚类与主成分分析演示幻灯片.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

演示文稿演讲PPT学习教学课件医学文件教学培训课件

第一节聚类分析第二节主成分分析;　　 ;把“对象”分成不同的类别这些类不是事先给定的，而是直接根据数据的特征确定的；把相似的东西放在一起，从而使得类别内部的“差异”尽可能小，而类别之间的“差异”尽可能大；聚类分析就是按照对象之间的“相似”程度把对象进行分类。;聚类分析的“对象”可以是所观察的多个样本，也可以是针对每个样本测得的多个变量；按照变量对所观察的样本进行分类称为Q型聚类按照多项指标(变量)对不同的地区(样本)进行分类；按照样本对多个变量进行分类，则称为R型聚类按照不同地区的样本数据对多个变量进行分类；两种聚类没有什么本质区别，实际中人们更感兴趣的通常是根据变量对样本进行分类(Q型聚类)。;按对象的“相似”程度分类; 根据样本的观测数据测度变量之间的相似性程度可以使用夹角余弦、Pearson相关系数等工具，也称为相似系数; 变量间的相似系数越大，说明它们越相近; 根据变量来测度样本之间的相似程度则使用“距离”; 把离得比较近的归为一类，而离得比较远的放在不同的类;;二、相似性的度量;聚类分析中是用“距离”或“相似系数”来度量对象之间的相似性; 31个地区的PM 2.5 数据就是直线上的31个点，每一个点对应一个地区; 如果按照PM 2.5对它们进行分类，就可以把在直线上离得比较近的那些点归为一类。如果再考虑太阳辐射，那么PM 2.5和太阳辐射就是二维平面上的一个点，31个地区就是平面中的31个点 ; 多个样本就是高维空间中的一个点，31个地区就是高维空间中的31个点; 各个点之间距离的远近就是分类的依据.;在对样本进行分类时，度量样本之间的相似性使用点间距离。点间距离的计算方法主要有欧氏距离(Euclidean distance) 平方欧氏距离(Squared Euclidean distance) Block距离(Block distance) Chebychev距离(Chebychev distance) 马氏距离(Minkovski distance) 最常用的是平方欧氏距离;;;系统聚类又称层次聚类；事先不确定要分多少类，而是先把每一个对象作为一类，然后一层一层进行分类；根据运算的方向不同，系统聚类法又分为合并法和分解法，两种方法的运算原理一样，只是方向相反。;将每一个样本作为一类，如果是k个样本就分k成类；按照某种方法度量样本之间的距离，并将距离最近的两个样本合并为一个类别，从而形成了k-1个类别；再计算出新产生的类别与其他各类别之间的距离，并将距离最近的两个类别合并为一类。这时，如果类别的个数仍然大于1，则继续重复这一步，直到所有的类别都合并成一类为止；总是先把离得最近的两个类进行合并：合并越晚的类，距离越远；事先并不会指定最后要分成多少类，而是把所有可能的分类都列出，再视具体情况选择一个合适的分类结果； ;;实际例子;校准化（Z）——消除量纲和数量级的影响;其它标准化方法;系统聚类;聚类结果;解读;系统聚类事先不需要确定要分多少类，聚类过程一层层进行，最后得出所有可能的类别结果，根据具体情况确定最后需要的类别。该方法可以绘制出树状聚类图，方便使用者直观选择类别，但其缺点是计算量较大，对大批量数据的聚类效率不高； K-均值聚类事先需要确定要分的类别数据，计算量要小得多，效率比系统聚类要高，也被称为快速聚类(quick cluster)。;第1步：确定要分的类别数目K 需要研究者自己确定；在实际应用中，往往需要研究者根据实际问题反复尝试，得到不同的分类并进行比较，得出最后要分的类别数量；第2步：确定K个类别的初始聚类中心要求在用于聚类的全部样本中，选择K个样本作为K个类别的初始聚类中心；与确定类别数目一样，原始聚类中心的确定也需要研究者根据实际问题和经验来综合考虑；使用SPSS进行聚类时，也可以由系统自动指定初始聚类中心；;第3步：根据确定的K个初始聚类中心，依次计算每个样本到K个聚类中心的距离欧氏距离，并根据距离最近的原则将所有的样本分到事先确定的K个类别中；第4步：根据所分成的K个类别，计算出各类别中每个变量的均值，并以均值点作为新的K个类别中心。根据新的中心位置，重新计算每个样本到新中心的距离，并重新进行分类；;第5步：重复第4步，直到满足终止聚类条件为止；迭代次数达到研究者事先指定的最大迭代次数(SPSS隐含的迭代次数是10次)；新确定的聚类中心点与上一次迭代形成的中心点的最大偏移量小于指定的量(SPSS隐含的是0.02)；第6步：方差分析，看各变量在不同类别之间的差异是否显著； K-均值聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。类别数目的确定具有一定的主主观性，究竟分多少类合适，需要研究者对研究问题