聚类分析与判别分析讲义.ppt

下载文档

5
0
约2.12万字
约 110页
2019-08-09 发布于广西
举报
版权申诉
保障服务

聚类分析与判别分析讲义.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

标题为“Multivariate statistics”的部分为对新模型判别效能大小进行估计的统计量，可见与第一步所建立的模型相比，Wilks?值和Pillais迹均有所变化，判别效能增加。变量筛选第三步到第六步，STEPDISC过程分别对模型中和模型外的变量进行相应的分析，判断其是否符合剔除或进入的标准，以此进行变量的剔除和选入。此过程中变量x6，x7，x2，x3被分别选入模型，没有变量被剔除。变量筛选第七步，从协方差分析结果中可见x1，x2，x3，x5，x6，x7均符合留在模型中的标准，因此没有变量被从模型中剔除。对模型外剩余的1个变量x4进行协方差分析，判断x4与分类变量的关系不够密切，相应的p值达不到进入模型的标准，变量x4不能选入判别模型。此时模型中没有变量可剔除，模型外也没有变量可进入，变量选择过程停止。结果的最后部分(标题为“Stepwise Selection Summary”的结果列表)是对变量选择过程和结果的汇总，如图8-27所示。各列从左到右依次为步骤序号，模型中所含变量数，每一步所选入模型的变量，每一步从模型中剔除的变量，所考查变量的平方偏相关系数，对所考查变量进行协方差分析的F值及相应p值，每一步完成后模型的Wilks?值及相应的p值，平方典则相关的平均及相应的p值。 (2) 判别分析SAS程序 Proc discrim data = Mylib.fylx pool = test crosslisterr; Class type; Var x1 - x3 x5 - x7; Run; 在PROC DISCRIM语句中，“data = Mylib.fylx”用来指定判别分析的训练数据集，“pool = test”要求在决定是否用合并协方差矩阵进行广义平方距离的计算以前，先对各类别内协方差矩阵进行齐性检验，根据检验结果决定所用的协方差矩阵。“crosslisterr”要求在输出结果中给出交叉验证结果中被错误分类的样品，此选项隐含了对“crossvalidate”的设置，要求DISCRIM过程对判别函数进行交叉验证。程序中未设置“method=”选项，DISCRIM过程采用默认的设置即参数法进行判别分析的过程。程序中忽略了priors语句，因此各类别先验概率值将被设置为相等。提交上述程序，分析结果如下。图8-28给出的是有关数据集的结构情况。数据一般情况：样品数63，指标变量数6，分类变量水平数3，总自由度(DF Total)62，类内自由度(DF Within Class)60，类间自由度(DF Between Class)2。 “Class Level Information”：各列从左到右依次为Type、Variable Name、Frequency、Weight以及Proportion、Prior Probability等，由于先验概率设置为各类别相等，因此各类的先验概率均为0.333333。 “Within Covariance Matrix Information”：各列从左到右依次为Type、Covariance Matrix Rank、Natural Log of the Determinant of the Covariance Matrix。此部分的最后一行为合并类内协方差矩阵的有关信息。图为各类内协方差矩阵齐性检验的结果(Test of Homogeneity of Within Covariance Matrices)，其中的大部分内容是有关符号的定义及有关指标计算方法的介绍。此处?2检验的结果表明各类内协方差不齐(p 0.0001)，因此各类内的协方差矩阵将被用于广义平方距离的计算，从而将得到一个二次判别函数(quadratic discriminant function)而非线性判别函数(linear discriminant function)。图8-30为各类间的广义平方距离，可见类内平方距离小于类间平方距离。图8-31所示为训练样本回代的判别分类汇总结果，上半部分为来自各类别的样品被判别函数归入各类别的频数和百分比，下半部分为各类别的错误分类率，可见第三类的错分率最高，为0.1667，各类别的总错分率为0.1124。图8-32为交叉验证判别分类中被错误分类的样品及其有关的信息。各列从左到右依次为样品号、原来所属的类别、被归入的新类别，后三列为对各条样品依据判别函数所得的归属各类别的后验概率，discrim过程依据此后验概率对每条样品进行判别归类。最后部分（图

您可能关注的文档

文档评论（0）

benzei244572 + 关注: 实名认证

内容提供者

建筑工程师持证人

没啥好说的额

咨询Ta 进入空间

领域认证该用户于2024年10月16日上传了建筑工程师

1亿VIP精品文档

更多 >

聚类分析与判别分析讲义.ppt