判别和聚类分析1.ppt

下载文档 降价啦

10
0
约2.56千字
约 38页
2017-09-23 发布于河南
举报
版权申诉
保障服务

判别和聚类分析1.ppt

1、本文档共38页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

判别和聚类分析1.ppt

判别分析与聚类分析;实际应用问题 ;已知蠓虫类别的数据;2、乳腺癌的诊断问题 ;2、乳腺癌的诊断问题 ;3、DNA序列的分类模型 ;a1=aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg; b1=gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt; ……;方法概述;判别分析; 设有k个类别G1，G2，…，Gk (总体)，对任意样品x，希望建立一个准则能判定它属于哪个总体？ ; μ1=（μ11,μ12,…,μ1p);1、距离判别;判别规则如下： ① 当w(x)0时，则 x∈G1 ② 当w(x)0时，则 x∈G2 ③ 当w(x)=0时，则 x待判（线性判别法）;x=[1.24,1.8]; M1=[1.24 1.36 1.38 1.38 1.38 1.4 1.48 1.54 1.56; 1.72 1.74 1.64 1.82 1.9 1.7 1.82 1.82 2.08]; M2=[1.14 1.18 1.2 1.26 1.28 1.3; 1.78 1.96 1.86 2.0 2.0 1.96]; G1=M1; G2=M2; u1=mean(G1); u2=mean(G2); S1=COV(G1); S2=COV(G2); S=(9*S1+6*S2)/15; NS=inv(S); W=-2*(x-(u1+u2)/2)*NS*(u1-u2); if W0 n=1; else n=-1; end n plot(G1(:,1),G1(:,2),*,G2(:,1),G2(:,2),*,x(1),x(2),*) ;mcfl.m; 当判别准则提出后，还应该研究其优良性。这里我们主要考虑误判概率。;判别情况分析;误判率回代估计法;误判率的交叉确认估计;2、Fisher判别;Fisher判别方法的图形解释;Fisher判别方法概述;Fisher判别方法概述;Af=[1.24,1.36,1.38,1.38,1.38,1.4,1.48,1.54,1.56; 1.72,1.74,1.64,1.82,1.90,1.7,1.82,1.82,2.08]; Apf=[1.14,1.18,1.2,1.26,1.28,1.3; 1.78,1.96,1.86,2.0,2.0,1.96]; mu1=mean(Af);mu2=mean(Apf); stdr1=std(Af);stdr2=std(Apf); sr1=zscore(Af);sr2=zscore(Apf); xiefc1=cov(sr1); xiefc2=cov(sr2); sim=0.5*(xiefc1+xiefc2); nsim=inv(sim); a=(mu1-mu2)*nsim m=0.5*(mu1-mu2)*nsim*(mu1+mu2) w=[1.24 1.28 1.4;1.8,1.84,2.04]; y=a*w plot(Af(:,1),Af(:,2),o,Apf(:,1),Apf(:,2),*,w(1,:),w(2,:),*);;Af;聚类分析;方法概述;数据结构;系统聚类法;2、对指标进行聚类对指标之间的“靠近‘程度往往用相似系数来刻画。;系统聚类法（Hierarchical Clustering)的计算步骤：;Matlab软件对系统聚类法的实现;1、T = clusterdata(X, cutoff) 其中X为数据矩阵，cutoff是创建聚类的临界值。即表示??分成几类。以上语句等价与以下几句命令： Y=pdist(X,’euclid’) Z=linkage(Y,’single’) T=cluster(Z,cutoff) 以上三组命令更加灵活，可以自由选择各种方法！;2、T = cluster(Z, cutoff) 从逐级聚类树中构造聚类，其中Z是由语句likage产生的(n-1)×3阶矩阵，cutoff是创建聚类的临界值。;4、 Y = pdist(X) Y = pdist(X, metric) 计算数据集X中两两元素间的距离， ‘metric’表示使用特定的方法，有欧氏距离‘euclid’