DNA序列的分类方法.docVIP

下载本文档

96
0
约6.3千字
约 11页
2017-08-16 发布于江西
举报
版权申诉

DNA序列的分类方法.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DNA序列的分类方法.doc

DNA序列的分类方法摘要：本文通过对20个已知类别的DNA序列进行统计分析，由浅入深进行研究，建立了五种DNA序列分类的模型。模型一利用单个碱基在序列中的含量不同，提出单碱基分类标准；模型二根据碱基c，g的百分比之和与碱基a，t的百分比之和的比值进行分类；模型三根据各序列中氨基酸分布不同引入分类参数得到分类标准；模型四把DNA序列中氨基酸含量分布转化为空间向量的距离关系，对未知类别的DNA相对于不同类别集合的距离进行分类；模型五利用模糊聚类分析法对DNA进行分类．关键词：DNA 分类模糊聚类分析问题的提出及分析 1953年，诺贝尔奖获得者沃森（Watson）和克里克（Crick）创造了DNA链的双螺旋模型，并提出遗传信息由DNA传递给蛋白质的基本法则——中心法则． DNA（脱氧核糖核酸）链是由四种不同的核苷酸（a, t, g, c）排列而成，在DNA中，每三个核苷酸顺序组成一种氨基酸，共64种排列方式对应着20种氨基酸（其中有些不同排列对应同一种氨基酸）．对于一个DNA来说，我们完全可用一个由a, t, g, c四个字母所组成的一个序列来完全表述不同核苷酸在DNA中的含量及排序方式．不同氨基酸的含量的分布与排序都表示不同生命特性的重要性质．我们对DNA进行分类时，就应该考虑分布与排序所表示出来的特性，而将特性相近的DNA分为一类．在本文，我们主要是根据不同核苷酸的分布及不同氨基酸的分布所表现出来的相似性，对DNA进行分类．二、模型的基本假设与符号说明（一）基本假设（1）题中所列40个数据为40个不同DNA的40个片段，且包含着每个DNA中我们所关注的主要信息；（2）182个DNA序列也为182个DNA中的片段，其中包含着以上40个数据中我们所关注的主要信息；（3）上面的所有DNA序列起始处都为一个完整氨基酸的起始处，每三个一组代表着不同氨基酸的排列．（二）符号说明 a, t, g, c分别表示腺嘌呤，胸腺嘧啶，鸟嘌呤，胞嘧啶；表示DNA片段中分别含a, t, g, c的百分比含量； a, t, g, c中任意3字符的组合为一个氨基酸（包括终止符）；； =．三、模型的建立与求解模型一单碱基分类法通过对A，B类DNA序列的细致观察，容易看出，A类的碱基g的个数较多，而B类中碱基t的个数明显多于其他碱基，于是我们对A，B 类序列进行统计得到表1．表1 A类中碱基百分比含量 B类中碱基百分比含量 0.2973 0.1351 0.3964 0.1712 0.3545 0.5000 0.1000 0.0455 0.2703 0.1532 0.4144 0.1622 0.3273 0.5000 0.1455 0.0273 0.2703 0.0631 0.4505 0.2162 0.2545 0.5182 0.1273 0.1000 0.4234 0.2883 0.1802 0.1081 0.3000 0.5000 0.1182 0.0818 0.2342 0.1081 0.4234 0.2342 0.2909 0.6455 0.0636 0 0.3514 0.1261 0.3964 0.1261 0.3636 0.4636 0.0909 0.0818 0.3514 0.1892 0.3604 0.0991 0.3545 0.2636 0.1364 0.2455 0.2793 0.1892 0.3694 0.1622 0.2909 0.5000 0.0909 0.1182 0.2072 0.1532 0.4324 0.2072 0.2182 0.5636 0.0727 0.1455 0.1818 0.1364 0.4091 0.2727 0.2000 0.5636 0.0636 0.1727 上述表格中的数据表明，除第4个数据外，A类中的t的百分比都小于0.19，g的百分比大于0.36, 而B类除倒数第4个数据（第17个序列）中的t的百分比含量大于0.45，g的百分比含量小于0.146．由此得到分类标准为：若且，则该序列属于A类；若且，则该序列属于B类．对21～40序列进行统计得到表2．表2 21～40序列中碱基百分比含量 0.2743 0.3628 0.1681 0.1947 0.2885 0.2212 0.2500 0.2404 0.1765 0.1863 0.3824 0.2549 0.2087 0.4087 0.1913 0.1913 0.2476 0.2190 0.3048 0.2286 0.