- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SAS统计分析7聚类分析
第7章 聚类分析 7.1 聚类分析方法的概述 聚类分析(Cluster Analysis)是研究物以类聚的一种统计分析方法。用于对事物类别尚不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。 1.聚类分析的指标 聚类分析可分为对变量聚类和对样品聚类。聚类分析所依据的指标按其测量的尺度可分为以下三种: 间隔尺度:指标用连续的实型变量表示。如长度,时间,产量,重量等。 有序尺度:用该指标度量时没有明确的数量表示,只有次序关系。如评价某种产品的质量,可分为一等品、二等品、三等品、等外品四种等级;如对某产品很满意、满意、不满意等。 名义尺度:用该指标度量时既没有数量也没有次序关系。如化学反应中催化剂的种类,天气的晴或阴,雨等。 2.聚类分析法简介 聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类。常用的聚类统计量有距离系数和相似系数2类。距离系数一般用于对样品分类,而相似系数一般用于对变量聚类。距离的定义很多,如极端距离、明考斯基距离、欧氏距离、切比雪夫距离等。相似系数有相关系数、夹角余弦、列联系数等。 2.聚类分析法简介 研究样品间的关系常用两种方法: 一种是距离法。它将每一样品看成为m维空间的一个点(m是样品的指标个数),这样就将研究样品间的关系变为研究m维空间中点与点之间的关系。而点与点之间的关系常用距离来表示,并根据点与点间的距离进行分类,即将距离较近的点归为一类,而将距离较远的点归为不同的类。 另一种是相似系数法。相近样品的相似系数接近1(或-1),而彼此无关的样品的相似系数接近于0,这样就可以根据样品的相似系数的值分为不同的类。 聚类分析方法大致归纳如下: 1)系统聚类法:先将n个元素(样品或变量)看成n类,然后将性质最接近(或相似程度最大)的2类合并为一个新类,得到n-1类。再从中找出最接近的2类加以合并变成了n-2类。如此下去,最后所有的元素全聚在一类之中。 2) 调优法:这种方法是先将样品做一个初始的分类,然后按照某种最优的原则逐步调整,一直到调整的分类比较合理为止。但这种方法,当初始分类不同时,对最终分类结果会有影响。该法可用SAS提供的FASTCLUS过程实现。此过程主要用于大数据集的聚类,观测数应在100~10万之间。 3) 图论法:这种方法是从几何观点来考虑分类问题,即应用图论的观点将n个样品看成m维空间的n个点(n为样品个数),点与点间用直线连接,从而构成m维空间的点的连接图,再应用图论的观点将样品点在m维空间作最小支撑树,最终达到分类目的。 7.2 TREE过程 语句格式 : PROC TREE 选择项 ; BY VARIABLES ; COPY VARIABLES ; RUN ; 若输入的数据集是由CLUSTER或VARCLUS过程生成的,则只有PROC TREE语句是必须的。 7.3 应用举例 7.3.1 用VARCLUS过程实现变量聚类分析 3. 应用举例 例7.1 (数据来自《数据分析》范金城 梅长林 编著 科学出版社)。下表数据为某年各地农民生活费用支出数据。其中:num序号、area地区、x1食品、x2衣着、x3燃料、x4住房、x5生活用品及其它、x6文化生活服务支出。试对这些指标作变量聚类分析。 专业结论:结合生活常识发现:将6个变量指标分为4类比较合理,即第1类中含x1食品、x4住房、x5生活用品及其它,这三个变量属于居民基本生活消费有关的变量。第2类中含x3燃料,第3类中含x6文化生活服务支出,第4类中含x2衣着。通过这种聚类分析,我们可以将居民的消费支出按类进行分析,以获得不同消费支出情况,可进一步研究居民生活水平状况。 7.3.2 用CLUSTER过程实现样品聚类分析 5. BY语句 :与其它过程相同。 6. 结(Tie)说明 在系统聚类的每一层,CLUSTER必须按最小距离把两类合并。但有时,对于离散型数据,可能会有几个相等的最小距离,在这种情况下,这种连结(Tie)必须按随机方式打破。类是采用内观测最小序号来识别,当两类要合并时,这两类有一个较大序号和一个较小序号,如果出现Tie,则取其中较大序号中的最小者合并。在输出的Tie列中,以T指出最小距离的一个连结,空白表明没有连结。 7. 应用举例 例7.2 某研究者收集了24种菌株。其中17~22号为已知的标准菌株,它们分别取自牛、羊、犬、猪、鼠、绵羊,其他为未知菌株。获得各菌株的16种脂肪酸百分含量。试作样品聚类分析,以便了解哪些未知菌株与已知的标准菌株在全部指标上最为接近。 7.3.3 用FASTCLUS过程进行大样本聚类分析 例7.3 数据为世界上55个国家和地区1984年前在七个径赛项目上的女子记录。变量M100
您可能关注的文档
- PVC木塑培训材料.doc
- QIT介绍.pptx
- QQ农场IQ博士大挑战答案库.doc
- qc基础知识上篇.ppt
- QC七大手法-明哥版.ppt
- QXDM和QPST工具使用简介.ppt
- PPT打印稿.pptx
- PPT排版原则-与制作技巧.pptx
- q离子浓度比较.ppt
- qxq第六章树立法治理念 维护法律权威.ppt
- SANGFOR_AD_V5.1_2013年度培训02_设备典型网络的部署_20130821.ppt
- SANGFOR_AD_V4.6_2013年渠道初级认证培训05_报表及其他常用功能.ppt
- SANGFOR_NGAF_v4.7_2014年度渠道初级认证培训05_VPN互联配置.ppt
- SCI论文写作-hao.ppt
- Section 19 代理事宜Agency.ppt
- SF6气体定量检漏仪LD-IIB型.doc
- SFBT的技术.doc
- SANGFOR_AC_数据中心安装及使用培训.ppt
- Situation Analysis情景分析.ppt
- speech on hitlers invasion of the u.s.s.r 的修辞鉴赏.ppt
文档评论(0)