- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
序列分类的统计分析
DNA序列分类的统计分析
摘要:
本问题是一个关于DNA序列分类的统计分析的问题,题中可以分为两个问题,问题一:从A、B类中提取特征,构造分类方法,并用已知类别的序列,衡量该方法是否足够好并用最满意的方法,对另外20个未标明类别的人工序列进行分类;问题二:数据文件给出了182个较长的自然DNA序列,用问题一中的最优分类方法对它们进行分类,给出分类结果。
问题一是在已知A、B两类DNA序列模型的条件下,用至少不同判定方法找到两类的模型的判定标准。再利用不同判定标准将各串DNA序列进行分类,并找到最优判定方法。本文采用三种方法进行判定:
1、根据各类DNA序列的碱基(碱基a, 碱基t碱基,g, 碱基c)出现次数的均值进行统计,利用欧式距离判别模型和Fisher判别模型分别计算出判别标准。然后,分别将已分类的前20组DNA序列再次分类进行检验,得到准确率。最后,将后20组DNA序列进行分类。得到欧式距离判别模型和Fisher判别模型的准确率都为95%。通过对两种判定方法的总结与分析,最终得出:Fisher判别模型更好;
2、根据各类DNA序列的碱基组成的3字符串的含量进行统计,。。。
最终确定:判定方法。。是最优判定方法。
得到结果:
A类:22 23 25 27 29 34 35 36 37
B类:21 24 26 28 30 31 32 33 38 39 40
问题二是在得出问题一的计算结果将比较长的自然DNA序列进行分类,相当于问题一的拓展模型。所以,只要将比较长的自然DNA序列代入问题一中最好的判定方法——并计算,就可以进行DNA序列的分类了。
得到结果:
A类:
B类:
关键字: DNA序列分类,欧式距离判别模型, Fisher判别模型,特征向量。。。
1、问题重述:
本问题是一个关于DNA序列分类的统计分析的问题,题中可以分为两个小问题:
问题一:有20个已知类别的人工制造的序列(见附录1),其中序列标号1—10 为A类,11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量该方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)(见附录1)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):
问题二:在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列,它们都较长。问题一分类方法对它们进行分类,并给出分类结果。
2、问题分析:
2.1 总体分析
对于问题一,应首先对不同种类的各个序列提取特征,然后给出相应的数学表示,最后构造判别方法并进行筛选,对于任意一个DNA序列,能够反映该序列的特征有两个:
1、DNA序列的碱基(碱基a, 碱基t碱基,g, 碱基c)含量;
2、DNA序列碱基组成的3字符串的含量
对于特征(1):
首先,利用欧式距离判别模型和Fisher判别模型分别计算出判别标准。然后,分别将已分类的前20组DNA序列再次分类进行检验,得到准确率。最后,将后20组DNA序列进行分类。得到欧式距离判别模型和Fisher判别模型的准确率。通过对两种判定方法的总结与分析,最终得出较好的判别方法;
对于问题二,是在得出问题一的计算结果将比较长的自然DNA序列进行分类,相当于问题一的拓展模型。所以,只要将比较长的自然DNA序列代入问题一中最好的判定方法并计算,就可以进行DNA序列的分类了。
2.2 基于碱基含量特征的判别模型
首先,考虑采用根据各类DNA序列的碱基的含量作为序列特征。由题意可知,再不用于编码的蛋白质的序列片段中,a和t的含量相对较多,因此,以碱基的含量作为DNA序列的结构特征是可行的。
将序列中的的出现次数记为将四种碱基表示成的四维向量来进行计算,记标号为的序列的特征向量为,其中,任意序列的特征向量与一个四维空间的点对应。
在本题中,已知分类的DNA序列样本共有n=20个,其中,前10个属于A类,后10个属于B类。对此,我们分别采用欧氏距离判别模型和Fisher判别模型对DNA序列样本进行分类。
2.3基于由碱基组成的字符串特征的判别模型
3、符号说明与基本假设:
3.1 符号说明
na:任意给出的DNA序列中a的百分含量;
ng:任意给出的DNA序列中g的百分含量;
nt:任意给出的DNA序列中t的百分含量;
nc:任意给出的DNA序列中c的百分含量;
Gi:由具有相同特征属性的个体构成的类
3.2 基本假设
1、假设碱基序列的特征值包括:碱基含量特征、碱基位置、由碱基组成的字符串特征;
2、假设各种碱基之间的内部
原创力文档


文档评论(0)