- 20
- 0
- 约8.15千字
- 约 7页
- 2017-02-09 发布于重庆
- 举报
DNA序列分类的统计分析
DNA序列分类的统计分析
摘要:
本问题是一个关于DNA序列分类的统计分析的问题,题中可以分为两个问题,问题一:从A、B类中提取特征,构造分类方法,并用已知类别的序列,衡量该方法是否足够好并用最满意的方法,对另外20个未标明类别的人工序列进行分类;问题二:数据文件给出了182个较长的自然DNA序列,用问题一中的最优分类方法对它们进行分类,给出分类结果。
问题一是在已知A、B两类DNA序列模型的条件下,用至少不同判定方法找到两类的模型的判定标准。再利用不同判定标准将各串DNA序列进行分类,并找到最优判定方法。本文采用三种方法进行判定:
1、根据各类DNA序列的碱基(碱基a, 碱基t碱基,g, 碱基c)出现次数的均值进行统计,利用欧式距离判别模型和Fisher判别模型分别计算出判别标准。然后,分别将已分类的前20组DNA序列再次分类进行检验,得到准确率。最后,将后20组DNA序列进行分类。得到欧式距离判别模型和Fisher判别模型的准确率都为95%。通过对两种判定方法的总结与分析,最终得出:Fisher判别模型更好;
2、根据各类DNA序列的碱基组成的3字符串的含量进行统计,。。。
最终确定:判定方法。。是最优判定方法。
得到结果:
A类:22 23 25 27 29 34 35 36 37
B类:21 24 26 28 30 31 32 33 38 39 40
问题二是在得出问题一的计算结果将比较长的自然DNA序列进行分类,相当于问题一的拓展模型。所以,只要将比较长的自然DNA序列代入问题一中最好的判定方法——并计算,就可以进行DNA序列的分类了。
得到结果:
A类:
B类:
关键字: DNA序列分类,欧式距离判别模型, Fisher判别模型,特征向量。。。
1、问题重述:
本问题是一个关于DNA序列分类的统计分析的问题,题中可以分为两个小问题:
问题一:有20个已知类别的人工制造的序列(见附录1),其中序列标号1—10 为A类,11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量该方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)(见附录1)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):
问题二:在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列,它们都较长。问题一分类方法对它们进行分类,并给出分类结果。
2、问题分析:
2.1 总体分析
对于问题一,应首先对不同种类的各个序列提取特征,然后给出相应的数学表示,最后构造判别方法并进行筛选,对于任意一个DNA序列,能够反映该序列的特征有两个:
1、DNA序列的碱基(碱基a, 碱基t碱基,g, 碱基c)含量;
2、DNA序列碱基组成的3字符串的含量
对于特征(1):
首先,利用欧式距离判别模型和Fisher判别模型分别计算出判别标准。然后,分别将已分类的前20组DNA序列再次分类进行检验,得到准确率。最后,将后20组DNA序列进行分类。得到欧式距离判别模型和Fisher判别模型的准确率。通过对两种判定方法的总结与分析,最终得出较好的判别方法;
对于问题二,是在得出问题一的计算结果将比较长的自然DNA序列进行分类,相当于问题一的拓展模型。所以,只要将比较长的自然DNA序列代入问题一中最好的判定方法并计算,就可以进行DNA序列的分类了。
2.2 基于碱基含量特征的判别模型
首先,考虑采用根据各类DNA序列的碱基的含量作为序列特征。由题意可知,再不用于编码的蛋白质的序列片段中,a和t的含量相对较多,因此,以碱基的含量作为DNA序列的结构特征是可行的。
将序列中的的出现次数记为将四种碱基表示成的四维向量来进行计算,记标号为的序列的特征向量为,其中,任意序列的特征向量与一个四维空间的点对应。
在本题中,已知分类的DNA序列样本共有n=20个,其中,前10个属于A类,后10个属于B类。对此,我们分别采用欧氏距离判别模型和Fisher判别模型对DNA序列样本进行分类。
2.3基于由碱基组成的字符串特征的判别模型
3、符号说明与基本假设:
3.1 符号说明
na:任意给出的DNA序列中a的百分含量;
ng:任意给出的DNA序列中g的百分含量;
nt:任意给出的DNA序列中t的百分含量;
nc:任意给出的DNA序列中c的百分含量;
Gi:由具有相同特征属性的个体构成的类
3.2 基本假设
1、假设碱基序列的特征值包括:碱基含量特征、碱基位置、由碱基组成的字符串特征;
2
您可能关注的文档
- DCS950(G)STSIP平台使用手册.doc
- DCS系统在锅炉控制中的应用.doc
- DCS系统管理制度.doc
- DCS系统调试中保证设备安全的一个重要步骤.doc
- DDC桩在液化土的介绍与应用.docx
- DDC桩在湿陷性黄土的介绍与应用.docx
- DDC桩应用于回填土的详解.doc
- DDC编程软件的基本操作.doc
- DDNS及WEB使用方法.doc
- DDS11A型数显电导率仪操作规程.doc
- 2026年及未来5年内中国液体氩气行业投资前景及策略咨询研究报告.docx
- 2026年及未来5年内中国黄铜合页行业投资前景及策略咨询研究报告.docx
- 2026年及未来5年内中国竹工艺家具行业投资前景及策略咨询研究报告.docx
- 2025年中国微机数显自动分析仪市场调查研究报告.docx
- 2026年及未来5年内中国微尘白色粉笔行业投资前景及策略咨询研究报告.docx
- 2025年中国微电脑型压胶机市场调查研究报告.docx
- 2026年及未来5年内中国数字化等功游泳训练测试系统行业投资前景及策略咨询研究报告.docx
- 2025年中国圆形花瓶市场调查研究报告.docx
- 2026年及未来5年内中国植物纤维静淀过滤器行业投资前景及策略咨询研究报告.docx
- 2025年中国超音波手套机市场调查研究报告.docx
最近下载
- 医院财务管理制度.docx
- 2025年2月26日西安市军队文职面试真题及答案解析(计算机岗).doc VIP
- (苏教版)数学五年级上册寒假“天天练”作业设计,含30份题组,附参考答案.pdf
- 鸡胴体等级及要求、鸡分割肉等级及要求.pdf VIP
- 2025年青岛酒店管理职业技术学院单招语文考试题库及答案解析.docx VIP
- 北师大版高中英语选择性必修第二册unit6 lesson3课文英汉对照.docx VIP
- 水利厅水利工程招投标管理工作手册(标准版).doc VIP
- 山东单招语文题库及答案.doc VIP
- 八项基本管理技能.pdf VIP
- 深度解析(2026)《YST 1777-2025微纳米铜粉》:新材料产业精细化、高端化发展的权威指南与未来展望.pptx VIP
原创力文档

文档评论(0)