生理系统建模（石洪波）DNA序列分类模型.docVIP

下载本文档

1
0
约1.12万字
约 13页
2017-07-16 发布于浙江
举报
版权申诉

生理系统建模（石洪波）DNA序列分类模型.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DNA序列分类模型重庆市数学建模竞赛一等奖王勇, 莫志锋, 秦力顼(1999级自动化学院) [摘要] 本文根据题中所给两个已知类别的DNA序列进行结构特征分析，从中提取信息和构造分类模型，对未知类别的DNA序列进行分类。我们构造了三个分类模型，它们分别是：特征密码子概率分布判别模型、图论最小生成树模型和向量空间直观判别模型。后两种分类结果几乎一致，判别率在90%左右，误判率控制在（0.05-0.1）范围。问题一结果为：模型一的结果：A类有7个：22，23，27，29，34，35，37；B类有10个：21，24，26，28，30，31，32，33，38，40；不能判断的有3个：25，36，39；模型三的结果：A类有10种：22，23，25，27，29，34，35，36，37，39；B类有10种：21，24，26，28，30，31，32，33，38，40；问题二结果为：模型二的结果：A类有108个，B类有74个。具体情况见文中答案。模型三的结果：A类有120个，B类有62个。具体情况见文中答案。我们还对三种分类方法进行了类比，认为模型二、三方法新颖独特，结果稳定，它们是一种较好的分类方法。并且对各种计算结果进行误差分析和检验等工作。问题的重述本问题为一个DNA序列分类问题。假定已知两组人工已分类的DNA序列（20个已知类别的人工制造的序列），其中序列标号1—10 为A类，11-20为B类。要求我们从已经分类了的DNA序列片段中提取共同特征构造分类方法，并评价所用分类方法的好坏，从而构造或选择一种较好的分类方法。测试对象是20个未标明类别的人工序列（标号21—40）和182个自然DNA序列。二、模型的假设及符号说明 1、名词解释：碱基：在生物学中，用A，T，C，G四个字符代表组成DNA序列的四种碱基；密码子：在遗传学中每三个碱基的组合被称为一个密码子，可以编码一个氨基酸，共有64个，还可以由密码子组成20个氨基酸。特征密码子：若类中某个密码子出现的概率pA与类中同一个密码子出现的概率pB之差的绝对值大于0.05，并且，pA pB，定义该密码子为类特征密码子。同理，可定义B类特征密码子。 2、模型假设：所给的DNA序列片段中没有断句和标点符号。对密码子的计数没有固定的起点和终点。假定各密码子近似呈现正态统计规律。 DNA序列的某些片段之间具有一定的相关性。 DNA序列不构成环状，划分密码子时，碱基剩余个数小于3时舍去不考虑。 3、符号说明： ------------------- 表示第k种密码子在第i个序列片段中出现的频率； ---------------------- 类特征密码子； ---------------------- 类特征密码子； --------------------最适A类密码子的概率； ---------------------最适B类密码子的概率； -------------------------误判率； ---------------------空间向量夹角余弦之差；三、模型的分析和建立 1、A、B两类的DNA序列特征提取碱基含量分析对A，B两类中的碱基a，t，c，g出现的频率进行了统计，其分布状况如下： A类：t，c 的总含量在25 ~ 41%左右，a，g 的总含量在59 ~ 75%左右； B类：t，c 的总含量在50 ~ 74%左右，a，g 的总含量在26 ~ 49%左右；以上的碱基含量分布作为已知DNA序列的第一特征。由此，我们可以根据碱基含量对未知类型的DNA序列片段进行粗略的分类：问题（1）： A类:29, 34; B类:21, 24, 26, 28, 31, 32, 33, 36, 38, 39, 40; 不能辨别类：22，23，25，27，30，35，37；在此基础上再对A、B两类进行第二、第三特征提取。针对不能判别类型利用其他特征和分类方法进行鉴别。（2）密码子的概率分布状况分析由遗传学中的知识可知,任何基因都是由64种密码子构成,不同的DNA序列片段中各密码子出现的概率不同。以密码子出现的概率不同为出发点，我们分别对A、B两类中关于DNA序列中的64种密码子的平均频率进行了统计，并且分析了A、B两类的特征密码子。如下统计表1：表1：64种密码子的平均概率分布表序号密码子 A(pA) B(pB) |pA-pB| 序号密码子 A(pA) B(pB) |pA-pB| 1 AAA 0.045 0.0454 0.0004 33 CAA 0.0138 0.0065 0.0073 2 AAT 0.0156 0.0426 0.0270 34 CAT 0.00