DNA序列分类的统计分析.docVIP

  • 20
  • 0
  • 约8.15千字
  • 约 7页
  • 2017-02-09 发布于重庆
  • 举报
DNA序列分类的统计分析

DNA序列分类的统计分析 摘要: 本问题是一个关于DNA序列分类的统计分析的问题,题中可以分为两个问题,问题一:从A、B类中提取特征,构造分类方法,并用已知类别的序列,衡量该方法是否足够好并用最满意的方法,对另外20个未标明类别的人工序列进行分类;问题二:数据文件给出了182个较长的自然DNA序列,用问题一中的最优分类方法对它们进行分类,给出分类结果。 问题一是在已知A、B两类DNA序列模型的条件下,用至少不同判定方法找到两类的模型的判定标准。再利用不同判定标准将各串DNA序列进行分类,并找到最优判定方法。本文采用三种方法进行判定: 1、根据各类DNA序列的碱基(碱基a, 碱基t碱基,g, 碱基c)出现次数的均值进行统计,利用欧式距离判别模型和Fisher判别模型分别计算出判别标准。然后,分别将已分类的前20组DNA序列再次分类进行检验,得到准确率。最后,将后20组DNA序列进行分类。得到欧式距离判别模型和Fisher判别模型的准确率都为95%。通过对两种判定方法的总结与分析,最终得出:Fisher判别模型更好; 2、根据各类DNA序列的碱基组成的3字符串的含量进行统计,。。。 最终确定:判定方法。。是最优判定方法。 得到结果: A类:22 23 25 27 29 34 35 36 37 B类:21 24 26 28 30 31 32 33 38 39 40 问题二是在得出问题一的计算结果将比较长的自然DNA序列进行分类,相当于问题一的拓展模型。所以,只要将比较长的自然DNA序列代入问题一中最好的判定方法——并计算,就可以进行DNA序列的分类了。 得到结果: A类: B类: 关键字: DNA序列分类,欧式距离判别模型, Fisher判别模型,特征向量。。。 1、问题重述: 本问题是一个关于DNA序列分类的统计分析的问题,题中可以分为两个小问题: 问题一:有20个已知类别的人工制造的序列(见附录1),其中序列标号1—10 为A类,11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量该方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)(见附录1)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): 问题二:在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列,它们都较长。问题一分类方法对它们进行分类,并给出分类结果。 2、问题分析: 2.1 总体分析 对于问题一,应首先对不同种类的各个序列提取特征,然后给出相应的数学表示,最后构造判别方法并进行筛选,对于任意一个DNA序列,能够反映该序列的特征有两个: 1、DNA序列的碱基(碱基a, 碱基t碱基,g, 碱基c)含量; 2、DNA序列碱基组成的3字符串的含量 对于特征(1): 首先,利用欧式距离判别模型和Fisher判别模型分别计算出判别标准。然后,分别将已分类的前20组DNA序列再次分类进行检验,得到准确率。最后,将后20组DNA序列进行分类。得到欧式距离判别模型和Fisher判别模型的准确率。通过对两种判定方法的总结与分析,最终得出较好的判别方法; 对于问题二,是在得出问题一的计算结果将比较长的自然DNA序列进行分类,相当于问题一的拓展模型。所以,只要将比较长的自然DNA序列代入问题一中最好的判定方法并计算,就可以进行DNA序列的分类了。 2.2 基于碱基含量特征的判别模型 首先,考虑采用根据各类DNA序列的碱基的含量作为序列特征。由题意可知,再不用于编码的蛋白质的序列片段中,a和t的含量相对较多,因此,以碱基的含量作为DNA序列的结构特征是可行的。 将序列中的的出现次数记为将四种碱基表示成的四维向量来进行计算,记标号为的序列的特征向量为,其中,任意序列的特征向量与一个四维空间的点对应。 在本题中,已知分类的DNA序列样本共有n=20个,其中,前10个属于A类,后10个属于B类。对此,我们分别采用欧氏距离判别模型和Fisher判别模型对DNA序列样本进行分类。 2.3基于由碱基组成的字符串特征的判别模型 3、符号说明与基本假设: 3.1 符号说明 na:任意给出的DNA序列中a的百分含量; ng:任意给出的DNA序列中g的百分含量; nt:任意给出的DNA序列中t的百分含量; nc:任意给出的DNA序列中c的百分含量; Gi:由具有相同特征属性的个体构成的类 3.2 基本假设 1、假设碱基序列的特征值包括:碱基含量特征、碱基位置、由碱基组成的字符串特征; 2

文档评论(0)

1亿VIP精品文档

相关文档