DNA序列的聚类问题.doc

下载文档 降价啦

185
0
约4.76万字
约 78页
2020-07-06 发布于湖北
举报
版权申诉
保障服务

DNA序列的聚类问题.doc

1、本文档共78页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

DNA序列的聚类问题 DNA序列分类问题不同于传统的聚类问题，它本身有其特殊性和复杂性[12]。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度，由于其作为字符串长度很大，也不能直接通过数学运算进行分类。如果采用数学方法研究DNA序列分类，首先要把DNA序列用一个向量数据表示，即进行DNA序列特征（聚类要素）提取。向量型数据对应着DNA序列特征。不同的特征提取方法有不同的特性，它将很大程度上影响聚类的结果，所以我们选取的方法必须符合实际要求的特点。已有的DNA序列特征提取方法有下面几种：顾俊华等在《模糊聚类分析方法在DNA序列分类中的应用》[15]一文中使用的基于4种碱基的丰度[13]的方法，即采用序列中的碱基A、T、C、G的含量百分比作为该序列的特征，从而将DNA序列特征构造为四维向量，进而聚类分析。岳晓宁等在《基于聚类分析的DNA序列分类研究》[16]一文中利用生物学中密码子（三联子）的概念，以密码子的含量作为DNA序列的特征。具体作法：统计每个DNA序列中aaa、aat、aac、aag、……、ttt出现的个数，这样DNA序列由一个64（）维的向量表示。这样64维序列又有三种解读方式：对于一个给定的DNA序列，分别从开始的1、2、3号位置分别截取产生三种不同的表示。如序列aggcacggaaaa可分成(agg)(cac)(gga)(aaa)或(ggc)(acg)(gaa)或(gca)(cgg)(aaa)。这3种不同的截法所产生三种不同的密码信息，需要对其进行处理。周玉元等在《DNA序列分类的Fisher判别法》[17]一文中，由生物学和生物化学知识，用碱基互补配对原则，将64个密码子对应20种氨基酸和一类终止信息，这样DNA序列可用一个21维向量来表示，从而突出生物特征、降低了维数。采用碱基丰度提取特征的方法缺点很明显，即很可能出现不同类别的DNA序列有着相同的判别特征，也就是说它们的各种碱基含量是相同的，导致标记它们的4维向量也是相同的，没有考虑到DNA序列中字符的顺序结构。根据生物工程理论，A、T、C、G看成四个独立结构单元，它们在DNA链上排列的顺序称为碱基序列。DNA根据碱基序列可以转录成RNA，RNA可翻译成蛋白质，所以用三个碱基为一组的碱基组(即密码子)出现频率作为分类的标准是可以反映生物学意义的。本文在已有的研究基础上，将基于密码子的DNA序列聚类方法应用于更大量的数据，从而进行验证，并对结果提出分析。其后，在基于密码子的DNA序列模糊聚类分析的基础上，提出另一种DNA序列判别特征的提取方法——基于向量距离的DNA序列模糊聚类分析，进而考虑DNA序列的排序性，挖掘DNA序列中的更多性息，提高DNA序列分类的准确性和客观性。第一节基于密码子的DNA序列模糊聚类分析基于本章第一节的数据，现将先以三个碱基为一组（密码子），提取其百分含量构成64维向量，再由这64维向量作为一个DNA序列的数据表征（即聚类要素），然后用模糊聚类的一般方法进行聚类分析。一、基于密码子的DNA序列判别特征提取现在用数学的语言描述上述问题： A、T、C、G为DNA的四种碱基，将64种密码子按1,2,3,…,64依次编号，编号顺序为aaa，aat，aac，aag，ata，att，atc，atg，…，aga，agt，agc，agg，taa，tat，tac，tag，tta，ttt，ttc，ttg，…，gga，ggt，ggc，ggg；三种不同解读DNA序列的方式是指分别从开始的1、2、3号位置分别截取连续的三个碱基，后面则依次截取密码子（3个连续的碱基），从而产生三种不同的表示。例如：人工制造DNA序列的第1号序列前12个碱基为aggcacggaaaa，三种不同解读为(agg)(cac)(gga)(aaa)和a(ggc)(acg)(gaa)aa和ag(gca)(cgg)(aaa)a；表示人工制造DNA序列的第号序列；表示按三种不同解读方式得到的第号序列中含有第个密码子的个数；表示按三种不同解读方式得到的第个密码子在第号序列中平均百分含量，即第个密码子在第号序列中出现的频率；表示按三种不同解读方式得到的第号序列中含有密码子的总数。则有如下关系可以提取DNA序列的判别特征：，其中由于数据的庞大，本文借用了计算机作为辅助工具，从而处理复杂的数据。文中以Visual C++ 6.0软件为平台，在其上逻辑编程，实现数据处理。对于三种不同解读DNA序列的方式，本文提出了转化，这样可以便于计算机的实现。如上例，人工制造DNA序列的第1号序列前12个碱基为aggcacggaaaa，三种不同解读为(agg)(cac)(gga)(aaa)和a(ggc)(acg)(