判别分析法分析.pptVIP

下载本文档

36
0
约 44页
2016-06-17 发布于湖北
举报
版权申诉

判别分析法分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

例3. 用贝叶斯判别蠓虫的步骤 (1) 判别总体的协方差矩阵是否相等 (2) 总体是否服从正态分布 (4) 利用公式编程计算首先对每个指标进行一元正态分布的检验，若有一个指标不服从正态分布，则总体不服从正态分布；若每个指标都服从一元正态分布，且各指标不相关则总体服从正态分布。 (3) 利用按比例分配方法估计两个总体的先验概率解： apf=[1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96]; af=[1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08]; x= [1.24,1.8;1.28,1.84; 1.4,2.04]; p1=6/(6+9)=0.4; p2=9/(6+9)=0.6; for i=1:3, d(i,:)=log(0.4)-0.5*((x(i,:)-m1)*inv(S)* (x(i,:)-m1))- (log(0.6)-0.5*((x(i,:)-m2)*inv(S)* (x(i,:)-m2))); end m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af); S=(5*s1+8*s2)/13; 由于d = 1.7585 0.9514 1.5747 全部大于零，即p1f1p2f2 所以待判的三个蠓虫均属于APF 三贴近度判别分析三贴近度判别分析三 (1) 建立模糊集合（关键） (2) 计算判别样本对两类总体的贴近度 T(x,G1),T(x,G2) (3) 若T(x,G1)T(x,G2),则x属于G2 若T(x,G1)T(x,G2),则x属于G1 该方法留给同学练习四判别分析的误差估计四五 1. 回代误判与交叉误判率估计 (1) 回代误判率估计设G1，G2为两个总体，X1,X2,…,Xm和Y1,Y2,…,Yn是分别来自G1，G2的训练样本，以全体训练样本作为m+n个新样品，逐个代入已建立的判别准则中判别其归属，这个过程称为回判。若属于G1的样品被误判为属于G2的个数为N1个，属于G2的样品被误判为属于G1的个数为N2个，则误判率估计为： p=(N1+N2)/(m+n) （2）交叉误判率估计交叉误判率估计是每次剔除一个样品，利用其余的m+n－1个训练样本建立判别准则再用所建立的准则对删除的样品进行判别。对训练样本中每个样品都做如上分析，以其误判的比例作为误判率。 ① 从总体为G1的训练样本开始，剔除其中一个样品，剩余的m－1个样品与G2中的全部样品建立判别函数； ② 用建立的判别函数对剔除的样品进行判别； ③ 重复步骤①，②，直到G1中的全部样品依次被删除，又进行判别，其误判的样品个数记为m12 ④ 对G2的样品重复步骤①，②，③直到G2中的全部样品依次被删除又进行判别，其误判的样品个数记为n21 于是交叉误判率估计为：通常，马氏距离判别与贴近度判别使用回代误判与交叉误判率进行估计。 2. 平均误判概率估计通常，贝叶斯判别使用平均误判概率进行判别误差估计。平均误判概率的计算公式 p*=p1p(2|1)+p2p(1|2) 其中分别表示第1（2）类误判为第二（一）类的概率.最终可得：其中 d=ln(p2/p1) 作业：对于蠓虫判别分别计算回代误判、交叉误判以及平均误判概率. DNA序列的处理方法三六 aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg DNA序列就是由四种碱基对a,c,t,g构成的字符串对DNA序列的处理，就是要将字符串转化为有用的数据，通常有以下方法： 1. 读取每个碱基对所占的百分比 2. 读取各种三联体所占的百分比在MATLAB生物工具箱中有很多有用的命令： Bases = basecount(seq) 其中seq是一个DNA序列，放在单引号内，输出是各碱基对的个数例如seq=aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggat