SAS-多变量统计题材.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * 聚类分析原理介绍 聚类分析中“类”的特征: 聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分; 聚类的数目和结构都没有事先假定。 聚类分析原理介绍 聚类方法的目的是寻找数据中: 潜在的自然分组结构a structure of “natural” grouping 感兴趣的关系relationship 聚类分析原理介绍 什么是自然分组结构Natural grouping ? 我们看看以下的例子: 有16张牌 如何将他们分为 一组一组的牌呢? A K Q J 聚类分析原理介绍 分成四组 每组里花色相同 组与组之间花色相异 A K Q J 花色相同的牌为一副 Individual suits 聚类分析原理介绍 分成四组 符号相同的牌为一组 A K Q J 符号相同的的牌 Like face cards 聚类分析原理介绍 分成两组 颜色相同的牌为一组 A K Q J 颜色相同的配对 Black and red suits 聚类分析原理介绍 分成两组 大小程度相近的牌分到一组 A K Q J 大配对和小配对 Major and minor suits 聚类分析原理介绍 这个例子告诉我们,分组的意义在于我们怎么定义并度量“相似性”Similar 因此衍生出一系列度量相似性的算法 A K Q J 大配对和小配对 Major and minor suits 聚类分析原理介绍 相似性Similar的度量(统计学角度) 距离Q型聚类(主要讨论) 主要用于对样本分类 常用的距离有(只适用于具有间隔尺度变量的聚类): 明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离) 兰氏距离 马氏距离 斜交空间距离 相似系数R型聚类 用于对变量分类,可以用变量之间的相似系数的变形如1-rij定义距离 变量按测量尺度(Measurement Level)分类 间隔(Interval)尺度变量 连续变量,如长度、重量、速度、温度等 有序(Ordinal)尺度变量 等级变量,不可加,但可比,如一等、二等、三等奖学金 名义(Nominal)尺度变量 类别变量,不可加也不可比,如性别、职业等 过程格式: PROC CLUSTER METHOD=聚类算法 选择项; VAR 变量表; ID 变量; COPY 变量表; FREQ 变量; RMSSTD 变量; BY 变量表; PROC CLUSTER 选项串: (1) DATA= 输入资料文件名称 (2) OUTTREE= 输出资料文件名称,供tree过程调用 (3) METHOD= 聚类算法 M=ave 类平均法;M=COM 最长距离法; M=WAR 离差平方和法(应用最广泛) 其他选择项: STD: 对原始数据标准化(以克服变量的不同量纲和量级的影响);RMSSTD:输出标准差均方根, RSQUARE:输出R2及偏R2 ,R2值越大,偏R2 越小,聚类效果越好。 PSEDO:输出伪F值(标志为PSF:用于评价分为G类的效果,越大表示可以显著的分为G类)及伪t2值(标志为PST2)。 广泛采用的类间距离 离差平方和法(ward method) D2=WM-(WK+WL) 即 对异常值很敏感;对较大的类倾向产生较大的距离,从而不易合并,较符合实际需要。 D2除以总离差平方和的比值为半偏R2 Cluster K Cluster L Cluster M 双峰系数b 总样本标准 差的均方根 分类数 半偏R2 R2 半偏R2的值是上一步R2与该步R2的差值,故半偏R2的值变化越大,说明上一次合并的效果越好。 如果该分类R2和上一分类R2相比,下降的很多,则说明上一次分类较合适。伪t2值(PST2)出现峰值的分类的上一个分类为最适合。 《联合国劳动年鉴》资料1979 变量聚类分析过程VARCLUS 过程格式: PROC VARCLUS 选择项; VAR 变量表; 例:影响某生态系统收益的指标有9个:生态系统面积(x1,亩)、耕作面积(x2,亩)、技术推广比例(x3,%)、肥料的使用量(x4,吨)、牲畜出栏(x5,只),载畜量(x6,只),耕牛数(x7,头)、植物萌发气温(x8,℃)、萌发期降雨量(x9,mm),数据见下表,采用因子分析研究变量之间的相互关系。 …. 第一类反应了物质和社会条件,第二类反应了播种面积,第三类反应了萌发期的温度,第四类反应的是降雨量。 方差最大正交旋转:可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。或者说使因子负荷两极分化,要么接近于0,要么接近于1。 表达式:x1’=-0.02F1+0.97F2+0.05F3-0.08

文档评论(0)

知识宝库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档