聚类分析与判别分析详解.ppt

下载文档 降价啦

26
0
约2.83万字
约 160页
2016-09-14 发布于湖北
举报
版权申诉
保障服务

聚类分析与判别分析详解.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

应用SPSS进行聚类分析与判别分析： Analyze - Classify - Hierarchical Cluster：分层聚类（观测量或变量聚类的过程） - K-Means Cluster：观测量的快速聚类分析 - Discriminant：判别分析 * 要求：了解聚类分析和判别分析的基本思想利用 SPSS软件解决聚类和判别分析问题 * * * 131例糖尿病患者各指标实测记录（前5例） ──────────────────────────────────── 例号年龄患病血糖视力 a波 a波 b波 b波 qp波 pq波视网膜年数峰时振幅峰时振幅峰时振幅病变程度 ──────────────────────────────────── 1 49 2.00 191 1.5 12.25 235.40 52.50 417.57 78.5 27.43 A1 2 49 2.00 191 1.2 13.50 225.15 52.00 391.20 78.5 46.69 A1 3 63 4.00 200 1.0 14.25 318.92 53.25 616.35 77.5 35.38 A1 4 63 4.00 200 0.6 14.00 361.90 55.00 723.30 77.0 47.01 A1 5 54 10.00 137 0.6 13.75 269.59 55.50 451.27 78.0 33.70 A2 ──────────────────────────────────── * 解假定样本系从总体中随机抽取,则样本中三种疾患类型的样本量可近似地反映先验概率, 计算得分类函数： Y1＝-181.447+0.473(age)+60.369(vision)+17.708(at)+0.048(bv)+0.364(qpv) Y2＝-165.830+0.472(age)+49.782(vision)+17.658(at)+0.034(bv)+0.325(qpv) Y3＝-189.228+0.178(age)+43.974(vision)+20.447(at)+0.040(bv)+0.265(qpv) 以王××的观察值代入分类函数, 得 Y1=-181.447+0.473×38+60.369×1.0+17.708×14.25 +0.048×383.39+0.364×43.18 =183.36 同样可算得： Y2＝180.58, Y3＝179.66 其中最大者为Y1, 故判断为轻度病变。 * 由上例见, Y1, Y2, Y3的数值相差不多,单纯凭分类函数值的大小作决策有时易出偏差。分别估计该个体属于各总体的概率却能客观地反映该个体的各种可能归属, 而避免武断。令Y*=180, 从而有 P(Y1｜X1,X2,…,X5)＝e(183.36-180)/(e(183.36-180)+e(180.58-180)+e(179.66-180)) ＝e4.36/(e4.36+e1.58+e0.66)＝0.9202 类似地, 可得 P(Y2｜X1,X2,…,X5)＝0.0571 P(Y3｜X1,X2,…,X5)＝0.0227 由此可见王××为轻度病变的概率为0.9202，因此把他判断为轻度病变可靠性较大。 * 2-4 逐步判别分析从逐步回归分析中我们已知道，回归方程中的自变量并非越多越好。作用不大的变量进入方程后不但无益，反而有害。在判别分析中也有类似情况，解释变量并非越多越好。解释变量的特异性越强，判别能力越强，这类解释变量当然越多越好；相反，那些判别能力不强的解释变量如果引入分类函数，同样也是有害无益的，不但增加了搜集数据和处理数据的工作量，而且还可能削弱判别效果。因此我们希望在建立分类函数时既不要遗漏有显著判别能力的变量, 也不要引入不必要的判别能力很弱的变量。逐步判别分析是达到上述目标的重要方法。它象逐步回归分析一样，可以在很多候选变量中挑选一些有重要作用的变量来建立分类函数，使方程内的变量都较重要而方程外的变量都不甚重要。分类函数内的变量是否有重要作用可用F检验, 检验的零假设是:该变量对判别的贡献为零。若P值较小便拒绝零假设,认为该变量的贡献具有统计学意义。 * * 含10个变量的分类函数中各变量的统计检