- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三节 K均值聚类分析(K-means Cluster) 第四节 系统聚类(Hierachical Cluster) 。 第五节 判别分析discriminant过程 选入分组变量,点击define range 定义分组变量的范围 选入进行判别分析的变量 选择所有自变量全部进入判别方程 用逐步方法筛选变量进入判别方程 选择符合某变量取值条件的观测进行分析,点击value设定符合条件的取值 输出统计量 各组的均数和标准差 各变量在各组间的单变量方差分析表,有助于判断各变量是否对判别有作用 组间协方差齐性检验 变量未标准化的判别系数,可方便手工回代考核,或对新样品手工计算判别 输出矩阵 组内相关系数内 组内协方差阵 各组协方差阵 总协方差阵 如果样本时随机抽样得到的,可选择用样本估计值估计先验概率,即样本中每组例数除以总数。 默认各类先验概率相等 用样本估计值估计先验概率 输出判别考察结果 输出每一例判别后的所属类别,即回顾性考核 输出判别错判率结果表 交叉验证考核结果 选择计算所用的协方差阵 组内协方差阵 用变量均值代替缺失值 选择计算所用的协方差阵 组内协方差阵 各组的协方差阵 输出判别图 所有类在一张图纸上 各类图单独输出 领域图 创建新变量,表示用判别函数判别的各样品所属类别,对应于回顾性考核 创建新变量,表示各观察单位的判别得分,两类判别时得分者高者为所属类别,多类判别时不如概率值直观 创建新变量,表示各观察单位被判入每一类的概率,最大概率值对应的类别为判定所属类别。 四、输出结果解释 2 这部分输出了逐步分析步骤,可以看到,最后变量vision、at、age、bv进入模型,用了建立判别函数(表15-31 、 15-32、 15-33) 表15-31 表15-32、 表15-33 3.这部分输出了判别系数所对应的特征和占总特征值的百分比,以及两个判别函数的无统计学意义的检验。可以看到,建立 两个判别函数,第一个函数的判别作用已占78% (表15-34、15-35)。 表15-34 表15-35 4、输出两个判别函数的判别系数。以及判别变量和判别函数间相关系数(表15-36、15-37)。 表15-36 表15-37 由上表可将两个标准化典型判别函数写出: Y1=0.524age+0.908vision-0.525at+0.316bv Y2=-0.795age+0.313vision+0.726at+0.479bv 表15-38 表15-39 5, 输出每类总体的重心指标。可以计算观察单位到各类重心的距离,可按距离最近原则将观察单位分类(表15-38) 表15-40 6.输出回顾型考核结果,总错判率为11/131=8.4%。交叉验证考核结果,总错判率为14/131=10.69%(表15-39、15-40) 7.输出3类观测在两个判别函数坐标中的位置,可看到有少数观测重叠(图形略)。 (五)结果表述 对11个变量进行逐步判别分析,最后4个变量age、at、vision、bv进入模型,建立两个标准化典型判别函数为: Y1=0.524age+0.908vision-0.525at+0.316bv Y2=-0.795age+0.313vision+0.726at+0.479bv 回顾法考核这两个判别函数,总错判率为8.4%,交叉验证考核总错判率为10.69% 三、注意事项 1.Fisher判别和Bayes判别通常适用于数值变量资料。Fisher判别分析对变量总体分布没有要求,而Bayes判别分析要求总体服从多元正态分布。 当变量包含二分类变量或多分类变量时,可以用Logistic回归模型进行判别。 2.临界值的选取对判别结果有较大的影响,如选取不当,严重影响判别函数的功能。临界值的取法取决于不同的出发点,有时要根据经验或结合问题的实际背景选取。 3. 样品的明确分类和各指标的特异性直接影响判别分析的效果,当各类都很接近时,无论选用什么方法都很难得到满意结果。因此,在建立判别函数前,可以先进行各类的单因素方差分析和多元方差分析,如类间差异无统计学意义,则判别效果一定不好。 4.和聚类分析相似,对判别函数的判别效果评价目前尚无系统的检验理论,只能通过错判率的估计来评估判别分类的有效性。 * 一 、 系统方法回顾 K均值聚类分析,也称快速聚类或动态聚类法,适用于较大样本时的样品聚类。该法要求资料中聚类指标均为数值变量,可使用欧氏距离(计算两类间的直线距离,只有当所有变量都是数值变量时才可选用)描述样品间的相似度。此外,研究者必须事先知道应该分为多少类,即必
文档评论(0)