SAS统计分析7聚类分析.ppt

下载文档 降价啦

43
0
约2.19千字
约 26页
2017-08-16 发布于湖北
举报
版权申诉
保障服务

SAS统计分析7聚类分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SAS统计分析7聚类分析

第7章聚类分析 7.1 聚类分析方法的概述聚类分析（Cluster Analysis）是研究物以类聚的一种统计分析方法。用于对事物类别尚不清楚，甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。 1．聚类分析的指标聚类分析可分为对变量聚类和对样品聚类。聚类分析所依据的指标按其测量的尺度可分为以下三种：间隔尺度：指标用连续的实型变量表示。如长度，时间，产量，重量等。有序尺度：用该指标度量时没有明确的数量表示，只有次序关系。如评价某种产品的质量，可分为一等品、二等品、三等品、等外品四种等级；如对某产品很满意、满意、不满意等。名义尺度：用该指标度量时既没有数量也没有次序关系。如化学反应中催化剂的种类，天气的晴或阴，雨等。 2．聚类分析法简介聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量，然后根据这种统计量把元素分成若干类。常用的聚类统计量有距离系数和相似系数2类。距离系数一般用于对样品分类，而相似系数一般用于对变量聚类。距离的定义很多，如极端距离、明考斯基距离、欧氏距离、切比雪夫距离等。相似系数有相关系数、夹角余弦、列联系数等。 2．聚类分析法简介研究样品间的关系常用两种方法：一种是距离法。它将每一样品看成为m维空间的一个点（m是样品的指标个数），这样就将研究样品间的关系变为研究m维空间中点与点之间的关系。而点与点之间的关系常用距离来表示，并根据点与点间的距离进行分类，即将距离较近的点归为一类，而将距离较远的点归为不同的类。另一种是相似系数法。相近样品的相似系数接近1（或-1），而彼此无关的样品的相似系数接近于0，这样就可以根据样品的相似系数的值分为不同的类。聚类分析方法大致归纳如下： 1)系统聚类法：先将ｎ个元素（样品或变量）看成ｎ类，然后将性质最接近（或相似程度最大）的2类合并为一个新类，得到n-1类。再从中找出最接近的2类加以合并变成了n-2类。如此下去，最后所有的元素全聚在一类之中。 2）调优法：这种方法是先将样品做一个初始的分类，然后按照某种最优的原则逐步调整，一直到调整的分类比较合理为止。但这种方法，当初始分类不同时，对最终分类结果会有影响。该法可用SAS提供的FASTCLUS过程实现。此过程主要用于大数据集的聚类，观测数应在100～10万之间。 3）图论法：这种方法是从几何观点来考虑分类问题，即应用图论的观点将n个样品看成m维空间的n个点（n为样品个数），点与点间用直线连接，从而构成m维空间的点的连接图，再应用图论的观点将样品点在m维空间作最小支撑树，最终达到分类目的。 7.2 TREE过程语句格式： PROC TREE 选择项 ; BY VARIABLES ; COPY VARIABLES ; RUN ; 若输入的数据集是由CLUSTER或VARCLUS过程生成的，则只有PROC TREE语句是必须的。 7.3 应用举例 7.3.1 用VARCLUS过程实现变量聚类分析 3. 应用举例例7.1　（数据来自《数据分析》范金城梅长林编著科学出版社）。下表数据为某年各地农民生活费用支出数据。其中：num序号、area地区、x1食品、x2衣着、x3燃料、x4住房、x5生活用品及其它、x6文化生活服务支出。试对这些指标作变量聚类分析。专业结论：结合生活常识发现：将6个变量指标分为4类比较合理，即第1类中含x1食品、x4住房、x5生活用品及其它，这三个变量属于居民基本生活消费有关的变量。第2类中含x3燃料，第3类中含x6文化生活服务支出，第4类中含x2衣着。通过这种聚类分析，我们可以将居民的消费支出按类进行分析，以获得不同消费支出情况，可进一步研究居民生活水平状况。 7.3.2 用CLUSTER过程实现样品聚类分析 5. BY语句：与其它过程相同。 6. 结（Tie）说明在系统聚类的每一层，CLUSTER必须按最小距离把两类合并。但有时，对于离散型数据，可能会有几个相等的最小距离，在这种情况下，这种连结（Tie）必须按随机方式打破。类是采用内观测最小序号来识别，当两类要合并时，这两类有一个较大序号和一个较小序号，如果出现Tie，则取其中较大序号中的最小者合并。在输出的Tie列中，以T指出最小距离的一个连结，空白表明没有连结。 7. 应用举例例7.2　某研究者收集了24种菌株。其中17～22号为已知的标准菌株，它们分别取自牛、羊、犬、猪、鼠、绵羊，其他为未知菌株。获得各菌株的16种脂肪酸百分含量。试作样品聚类分析，以便了解哪些未知菌株与已知的标准菌株在全部指标上最为接近。 7.3.3 用FASTCLUS过程进行大样本聚类分析例7.3 数据为世界上55个国家和地区1984年前在七个径赛项目上的女子记录。变量M100