DNA序列统计分析.docVIP

下载本文档

25
0
约3.88万字
约 28页
2017-09-02 发布于安徽
举报
版权申诉

DNA序列统计分析.doc

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DNA序列的统计分析【摘要】模型一统计了20个已知类别的DNA序列碱基的含量的概率分布，根据已知的类别就A，T，C，G的含量作为四个指标，采用判别分析对未知类别的序列给出了较满意的分类。模型二首先统计了已知类别的DNA序列的位置上各碱基出现的概率，发现A，B两类序列结构的不同，体现在密码子各位上的碱基概率分布有明显的差异，以嘌呤和嘧啶碱基为区别构造一个一维随机徘徊函数，从而给出A，B的分类法；接着，再从三个角度来划分碱基，对于每一种分类都构造一个一维随机徘徊函数，根据此函数得出拟和直线，用三条拟和直线的斜率作为分析的指标进行多元判别分析，由此给出A，B的分类法，较模型一分类的正确率明显提高。一、问题简述与分析人类基因组计划中DNA全序列图是由四个碱基A，T，G，C按照一定的顺序排成的长约30亿的序列，研究DNA全序列具有什么结构，探讨由这四个字符排成的看似随机的序列中到底隐藏着什么规律，是当代生物信息学最重要的课题之一。 DNA分子中唯一可变的部分是碱基（胸腺嘧啶T，鸟嘌呤G，胞嘧啶C，和腺嘌呤A）序列，人类发现在全序列中有一些是用于编码蛋白质的序列片段，即由这四个字符组成的64种不同的3字符串，其中大多数是用于编码构成蛋白质的20种氨基酸，研究表明，分析DNA序列的结构以及序列的某些片段之间具有的相关性对于理解DNA全序列有十分重要的意义，现提出给以下序列集合进行分类的问题：由20个已知类别的序列中（序号1—10为A类，11—20为B类）提取特征，构造分类方法，并用这些已知类别的序列来衡量你的方法的好坏，然后对另外的20个未知类别的序列（标号21—40）进行分类。对给出的182个DNA序列，用你的分类方法对他们进行分类，并给出分类结果。研究表明，遗传密码所必要的碱基个数为3个，即密码子是由三个碱基组成，一串前后相依的密码子构成了氨基酸的排列次序，从而形成了具体的蛋白质，显然密码子使用的频率和数量，进一步，碱基出现的频率和数量，特别是排在一起的结构和序列片段的相关性都与研究DNA序列有十分紧密的联系，我们就是要挖掘这些统计特征，寻找出隐藏在这些序列中的规律。首先，通过分析，我们可以看出给出的A，B两类的20 个样本数据中，四个碱基a, c, g, t 的含量有较明显的区别，因此我们可以通过其在含量方面的区别，以四种碱基的含量为四个指标利用SAS统计软件进行多元判别分析，以此来确定A，B的分类，并进而对其他的序列进行分类。（模型一）其次，我们进一步判断，发现对a, c, g, t的含量完全相同的两个DNA序列来说，决定其分类的标准就不能再用碱基含量了，此时我们考虑用碱基的结构排列，即a, c, g, t出现在DNA序列中的每一位的顺序：我们先以嘌呤碱基与嘧啶碱基作为分类的标准，并构造一个一维随机徘徊函数，然后用据此得到的拟和直线的斜率来进行判断，但是我们进而发现仅从这一个角度来考虑是不完善的，因此经过研究我们从三个角度来分别构造一维随机徘徊函数，得到三条拟和直线，以这三条直线的斜率为指标再次用SAS统计软件进行多元判别分析，以此来判断A，B的分类。（模型二）二模型假设与符号设定 1. 假定所给的DNA序列数据为起始密码子之后的第一个数据字符； 2. 每个碱基出现是随机的； 3. ha—— 一个序列中a的含量，hc—— 一个序列中c的含量； 4. hg—— 一个序列中g的含量，ht—— 一个序列中t的含量； 5. K1—— 按嘌呤与嘧啶碱基分类拟和的直线的斜率； 6. K2—— 按氨基与酮基碱基分类拟和的直线的斜率； 7. K3—— 按强氢键与弱氢键分类拟和的直线的斜率； 8. 其他的符号将在文中另外给出。三模型一的建立和求解一) 样本的统计分析从含量的角度考虑，对于给出的20个已知类别的样本数据，我们利用MATLAB绘制出a, c, g, t 的分布图如下：（其中实线表示A类，虚线表示B类）这里采用MATLAB的图形函数plot做图求解，其做图格式为：plot(x,a1,x,a2,--)。其中X是横坐标，取1到10，a1与a2分别为A类与B类中的碱基含量，--代表线型是虚线。 a 的分布 c 的分布 g的分布 t 的分布图1 A与B两类a, c, g, t 的分布图由上图可以看出，a, c, g , t 的含量明显不同，特别是g , t 的含量差别很大，因此我们可以根据a, c, g , t 的含量来区分A，B两类。于是我们将已知的20