基于小波变换技术预测DNA序列编码区生物医学工程专业论文.docxVIP

下载本文档

6
0
约3.25万字
约 44页
2019-03-28 发布于上海
举报
版权申诉

基于小波变换技术预测DNA序列编码区生物医学工程专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文摘要中文摘要随着人类基因组计划的发展，近年来 GenBank 里的碱基数目呈指数增长，如何从大量的数据中挖掘出有用的生物信息是生物信息学领域今后几十年都需要致力解决的问题，其中基因识别问题——通过计算的方法识别 DNA 序列中编码蛋白质的基因更是迫切需要解决的研究课题之一。目前基因识别常用的方法有：人工神经网络方法、复杂度分析方法、傅立叶分析方法、密码学方法和统计学方法等。概括起来，基因预测方法大致分为两类。一类是基于编码区所具有的独特信号，比如起始密码子、终止密码子等；另一类是基于编码区的碱基组成与非编码区的差异。对于原核生物，其基因结构较为简单，一些研究小组已经在这方面取得了很好的结果，目前预测准确率可达到 98%左右。对于真核生物，它们的基因结构远比原核生物的复杂，因此，要从具有较多内含子的真核生物基因组序列中正确识别出编码区是个相当困难的问题，仍然有大量的工作要做。 DNA 序列蛋白编码区的一个显著的特征就是 1/3 周期性——在 DNA 序列的频谱中，如果在 f =1/3 处存在一个尖峰，这就可能对应于三联密码子。这种周期性在蛋白编码区序列中是普遍存在的，而在大多数非编码序列中却是不存在的。因此，基因组序列的傅立叶频谱中在 f=1/3 处是否存在峰值，可作为判断该序列是否是编码序列的一个简单可行的标准。本文首先利用傅立叶技术分析 DNA 序列的三周期性，并提出一种快速计算方法。但是由于傅立叶技术分析核苷酸序列不可避免的带来随机涨落，会在频域内引入高频噪声，因此仅仅根据傅立叶分析的结果还难于达到准确识别基因的目的。小波变换是一种新的变换分析方法，具有多分辩分析的特点，而且在时频两域都有表征信号局部特征的能力，被誉为分析信号的显微镜。小波变换在一定的滤波尺度下可有效地除去随机涨落引起的高频噪声，所以本文提出以傅立叶变换为基础，再利用小波变换将随机涨落和有用信号分开，建立一种基因识别的新方法，以达到简便、快速，准确识别基因组序列编码区的目的。通过对来自于 Genbank 数据库的 DNA 序列以及标准 DNA 序列集 ALLSEQ 进行大量实验证明，基于小波变换的方法对 DNA 序列编码区进行预测可以取得良好效果，探测率可达到 81%，优于其他方法，正确率可达到 75%。新方法十分容易应用，不需要基因组序列的任何先验知识；运算十分快速，运算速度比基于快速傅立叶变换的预测方法还要提高很多倍；同时，该方法可实现对编码区的初步定位，为进一步用实验方法精 I 中文摘要确定位编码区作指导，节省大量人力和物力。关键词：傅立叶分析，小波变换，DNA 序列，蛋白编码区 Abstract Abstract In recent years, Genome projects have given rise to an exponentially growing amount of genetic information. How to find out useful information in the huge amounts of data is the problem that scientists focus on in current and future. One of the most important and basic problems is the gene identification, namely the identification of protein-coding regions in DNA sequences through computational means. In present, a number of methods for gene detection, based on distinctive features of protein coding sequences have been proposed. For example, neural net-based method, the method based on correlation function, Fourier-based analysis, and so on. At the same time, comprehensive evaluation of various methods suggest that they can’t work equally well for all genes, and constant refinement is needed to evolve better methodologies, there is also a n