DNA序列统计分析.docVIP

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DNA序列的统计分析 【摘 要】模型一统计了20个已知类别的DNA序列碱基的含量的概率分布,根据已知的类别就A,T,C,G的含量作为四个指标,采用判别分析对未知类别的序列给出了较满意的分类。模型二首先统计了已知类别的DNA序列的位置上各碱基出现的概率,发现A,B两类序列结构的不同,体现在密码子各位上的碱基概率分布有明显的差异,以嘌呤和嘧啶碱基为区别构造一个一维随机徘徊函数,从而给出A,B的分类法;接着,再从三个角度来划分碱基,对于每一种分类都构造一个一维随机徘徊函数,根据此函数得出拟和直线,用三条拟和直线的斜率作为分析的指标进行多元判别分析,由此给出A,B的分类法,较模型一分类的正确率明显提高。 一、问题简述与分析 人类基因组计划中DNA全序列图是由四个碱基A,T,G,C按照一定的顺序排成的长约30亿的序列,研究DNA全序列具有什么结构,探讨由这四个字符排成的看似随机的序列中到底隐藏着什么规律,是当代生物信息学最重要的课题之一。 DNA分子中唯一可变的部分是碱基(胸腺嘧啶T,鸟嘌呤G,胞嘧啶C,和腺嘌呤A)序列,人类发现在全序列中有一些是用于编码蛋白质的序列片段,即由这四个字符组成的64种不同的3字符串,其中大多数是用于编码构成蛋白质的20种氨基酸,研究表明,分析DNA序列的结构以及序列的某些片段之间具有的相关性对于理解DNA全序列有十分重要的意义,现提出给以下序列集合进行分类的问题: 由20个已知类别的序列中(序号1—10为A类,11—20为B类)提取特征,构造分类方法,并用这些已知类别的序列来衡量你的方法的好坏,然后对另外的20个未知类别的序列(标号21—40)进行分类。 对给出的182个DNA序列,用你的分类方法对他们进行分类,并给出分类结果。 研究表明,遗传密码所必要的碱基个数为3个,即密码子是由三个碱基组成,一串前后 相依的密码子构成了氨基酸的排列次序,从而形成了具体的蛋白质,显然密码子使用的频率和数量,进一步,碱基出现的频率和数量,特别是排在一起的结构和序列片段的相关性都与研究DNA序列有十分紧密的联系,我们就是要挖掘这些统计特征,寻找出隐藏在这些序列中的规律。 首先,通过分析,我们可以看出给出的A,B两类的20 个样本数据中,四个碱基a, c, g, t 的含量有较明显的区别,因此我们可以通过其在含量方面的区别,以四种碱基的含量为四个指标利用SAS统计软件进行多元判别分析,以此来确定A,B的分类,并进而对其他的序列进行分类。(模型一) 其次,我们进一步判断,发现对a, c, g, t的含量完全相同的两个DNA序列来说,决定其分类的标准就不能再用碱基含量了,此时我们考虑用碱基的结构排列,即a, c, g, t出现在DNA序列中的每一位的顺序:我们先以嘌呤碱基与嘧啶碱基作为分类的标准,并构造一个一维随机徘徊函数,然后用据此得到的拟和直线的斜率来进行判断,但是我们进而发现仅从这一个角度来考虑是不完善的,因此经过研究我们从三个角度来分别构造一维随机徘徊函数,得到三条拟和直线,以这三条直线的斜率为指标再次用SAS统计软件进行多元判别分析,以此来判断A,B的分类。(模型二) 二 模型假设与符号设定 1. 假定所给的DNA序列数据为起始密码子之后的第一个数据字符; 2. 每个碱基出现是随机的; 3. ha—— 一个序列中a的含量,hc—— 一个序列中c的含量; 4. hg—— 一个序列中g的含量,ht—— 一个序列中t的含量; 5. K1—— 按嘌呤与嘧啶碱基分类拟和的直线的斜率; 6. K2—— 按氨基与酮基碱基分类拟和的直线的斜率; 7. K3—— 按强氢键与弱氢键分类拟和的直线的斜率; 8. 其他的符号将在文中另外给出。 三 模型一的建立和求解 一) 样本的统计分析 从含量的角度考虑,对于给出的20个已知类别的样本数据,我们利用MATLAB绘制出a, c, g, t 的分布图如下:(其中实线表示A类,虚线表示B类) 这里采用MATLAB的图形函数plot做图求解,其做图格式为:plot(x,a1,x,a2,--)。其中X是横坐标,取1到10,a1与a2分别为A类与B类中的碱基含量,--代表线型是虚线。 a 的分布 c 的分布 g的分布 t 的分布 图1 A与B两类a, c, g, t 的分布图 由上图可以看出,a, c, g , t 的含量明显不同,特别是g , t 的含量差别很大,因此我们可以根据a, c, g , t 的含量来区分A,B两类。于是我们将已知的20

文档评论(0)

lingyun51 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档