- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DNA序列分类模型
重庆市数学建模竞赛一等奖
王 勇, 莫志锋, 秦力顼(1999级自动化学院)
[摘要]
本文根据题中所给两个已知类别的DNA序列进行结构特征分析,从中提取信息和构造分类模型,对未知类别的DNA序列进行分类。我们构造了三个分类模型,它们分别是:特征密码子概率分布判别模型、图论最小生成树模型和向量空间直观判别模型。后两种分类结果几乎一致,判别率在90%左右,误判率控制在(0.05-0.1)范围。
问题一结果为:模型一的结果:A类有7个:22,23,27,29,34,35,37;B类有10个:21,24,26,28,30,31,32,33,38,40;不能判断的有3个:25,36,39;模型三的结果:A类有10种:22,23,25,27,29,34,35,36,37,39;B类有10种:21,24,26,28,30,31,32,33,38,40;
问题二结果为:模型二的结果:A类有108个,B类有74个。具体情况见文中答案。模型三的结果:A类有120个,B类有62个。具体情况见文中答案。 我们还对三种分类方法进行了类比,认为模型二、三方法新颖独特,结果稳定,它们是一种较好的分类方法。并且对各种计算结果进行误差分析和检验等工作。
问题的重述
本问题为一个DNA序列分类问题。假定已知两组人工已分类的DNA序列(20个已知类别的人工制造的序列),其中序列标号1—10 为A类,11-20为B类。要求我们从已经分类了的DNA序列片段中提取共同特征构造分类方法,并评价所用分类方法的好坏,从而构造或选择一种较好的分类方法。测试对象是20个未标明类别的人工序列(标号21—40)和182个自然DNA序列。
二、模型的假设及符号说明
1、名词解释:
碱基: 在生物学中,用A,T,C,G四个字符代表组成DNA序列的四种碱基;
密码子:在遗传学中每三个碱基的组合被称为一个密码子,可以编码一个氨基酸,共有64个,还可以由密码子组成20个氨基酸。
特征密码子:若类中某个密码子出现的概率pA与类中同一个密码子出现的概率pB之差的绝对值大于0.05,并且,pA pB,定义该密码子为类特征密码子。同理,可定义B类特征密码子。
2、模型假设:
所给的DNA序列片段中没有断句和标点符号。对密码子的计数没有固定的起点
和终点。
假定各密码子近似呈现正态统计规律。
DNA序列的某些片段之间具有一定的相关性。
DNA序列不构成环状,划分密码子时,碱基剩余个数小于3时舍去不考虑。
3、符号说明:
------------------- 表示第k种密码子在第i个序列片段中出现的频率;
---------------------- 类特征密码子;
---------------------- 类特征密码子;
--------------------最适A类密码子的概率;
---------------------最适B类密码子的概率;
-------------------------误判率;
---------------------空间向量夹角余弦之差;
三、模型的分析和建立
1、A、B两类的DNA序列特征提取
碱基含量分析
对A,B两类中的碱基a,t,c,g出现的频率进行了统计,其分布状况如下:
A类:t,c 的总含量在25 ~ 41%左右,a,g 的总含量在59 ~ 75%左右;
B类:t,c 的总含量在50 ~ 74%左右,a,g 的总含量在26 ~ 49%左右;
以上的碱基含量分布作为已知DNA序列的第一特征。由此,我们可以根据碱基含量对未知类型的DNA序列片段进行粗略的分类:
问题(1):
A类:29, 34;
B类:21, 24, 26, 28, 31, 32, 33, 36, 38, 39, 40;
不能辨别类:22,23,25,27,30,35,37;
在此基础上再对A、B两类进行第二、第三特征提取。针对不能判别类型利用其他特征和分类方法进行鉴别。
(2)密码子的概率分布状况分析
由遗传学中的知识可知,任何基因都是由64种密码子构成,不同的DNA序列片段中各密码子出现的概率不同。以密码子出现的概率不同为出发点,我们分别对A、B两类中关于DNA序列中的64种密码子的平均频率进行了统计,并且分析了A、B两类的特征密码子。如下统计表1:
表1:64种密码子的平均概率分布表
序号 密码子 A(pA) B(pB) |pA-pB| 序号 密码子 A(pA) B(pB) |pA-pB| 1 AAA 0.045 0.0454 0.0004 33 CAA 0.0138 0.0065 0.0073 2 AAT 0.0156 0.0426 0.0270 34 CAT 0.00
原创力文档


文档评论(0)