判别分析法分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
例3. 用贝叶斯判别蠓虫的步骤 (1) 判别总体的协方差矩阵是否相等 (2) 总体是否服从正态分布 (4) 利用公式编程计算 首先对每个指标进行一元正态分布的检验,若有一个指标不服从正态分布,则总体不服从正态分布;若每个指标都服从一元正态分布,且各指标不相关则总体服从正态分布。 (3) 利用按比例分配方法估计两个总体的先验概率 解: apf=[1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96]; af=[1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08]; x= [1.24,1.8;1.28,1.84; 1.4,2.04]; p1=6/(6+9)=0.4; p2=9/(6+9)=0.6; for i=1:3, d(i,:)=log(0.4)-0.5*((x(i,:)-m1)*inv(S)* (x(i,:)-m1))- (log(0.6)-0.5*((x(i,:)-m2)*inv(S)* (x(i,:)-m2))); end m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af); S=(5*s1+8*s2)/13; 由于d = 1.7585 0.9514 1.5747 全部大于零,即p1f1p2f2 所以待判的三个蠓虫均属于APF 三 贴近度判别分析 三 贴近度判别分析 三 (1) 建立模糊集合(关键) (2) 计算判别样本对两类总体的贴近度 T(x,G1),T(x,G2) (3) 若T(x,G1)T(x,G2),则x属于G2 若T(x,G1)T(x,G2),则x属于G1 该方法留给同学练习 四 判别分析的误差估计 四 五 1. 回代误判与交叉误判率估计 (1) 回代误判率估计 设G1,G2为两个总体,X1,X2,…,Xm和Y1,Y2,…,Yn是分别来自G1,G2的训练样本,以全体训练样本作为m+n个新样品,逐个代入已建立的判别准则中判别其归属,这个过程称为回判。若属于G1的样品被误判为属于G2的个数为N1个,属于G2的样品被误判为属于G1的个数为N2个,则误判率估计为: p=(N1+N2)/(m+n) (2)交叉误判率估计 交叉误判率估计是每次剔除一个样品,利用其余的m+n-1个训练样本建立判别准则再用所建立的准则对删除的样品进行判别。对训练样本中每个样品都做如上分析,以其误判的比例作为误判率。 ① 从总体为G1的训练样本开始,剔除其中一个样品,剩余的m-1个样品与G2中的全部样品建立判别函数; ② 用建立的判别函数对剔除的样品进行判别; ③ 重复步骤①,②,直到G1中的全部样品依次被删除,又进行判别,其误判的样品个数记为m12 ④ 对G2的样品重复步骤①,②,③直到G2中的全部样品依次被删除又进行判别,其误判的样品个数记为n21 于是交叉误判率估计为: 通常,马氏距离判别与贴近度判别使用回代误判与交叉误判率进行估计。 2. 平均误判概率估计 通常,贝叶斯判别使用平均误判概率进行判别误差估计。 平均误判概率的计算公式 p*=p1p(2|1)+p2p(1|2) 其中 分别表示第1(2)类误判为第二(一)类的概率.最终可得: 其中 d=ln(p2/p1) 作业:对于蠓虫判别分别计算回代误判、交叉误判以及平均误判概率. DNA序列的处理方法 三 六 aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg DNA序列就是由四种碱基对a,c,t,g构成的字符串 对DNA序列的处理,就是要将字符串转化为有用的数据,通常有以下方法: 1. 读取每个碱基对所占的百分比 2. 读取各种三联体所占的百分比 在MATLAB生物工具箱中有很多有用的命令: Bases = basecount(seq) 其中seq是一个DNA序列,放在单引号内,输出是各碱基对 的个数 例如seq=aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggat

文档评论(0)

LOVE爱 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5341224344000002

1亿VIP精品文档

相关文档