基因组序列拼接算法及ncRNA新基因的发现-计算机应用技术专业论文.docxVIP

基因组序列拼接算法及ncRNA新基因的发现-计算机应用技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 摘 要 摘要 随着基因组研究的不断深入,生物信息学这一领域得到了迅速的发展. 本论文就是在生物信息学中的大规模基因组测序中的信息分析和基因组中非编码区 信息结构分析两个重要方面开展的一些研究工作. 具体来说是: I.新的DNA序列拼接算法的研究; 2.Repeat Separation相关理论问题的研究; 3.基于EST序列寻找neRNA新基因的方法的研究; 4.基于SARS蛋白的dRNA设计. 主要成果有: 针对基因组序列拼接问题提出了新的算法.其实质是将拼接问题抽象成为求解最短 公共超串问题,并将局部搜索(LocalSearch)方法用于求解最短公共起串中.这一新的策 略为克服传统的基于贪心算法的拼接软件所导致的拼接错误开辟了途径.本文还进一步提 出了。邻域剪枝”(NeighborhoodPruning)和“互补校验”(Complementary-validation) 两种优化策略,从提速和提高拼接质量两方面显著地改进了算法性能. 本文将基因组序列拼接中重复序列的处理问题形式化为K一最近子串问题(K-Closest Substring Problem)和K一最小海明距离和子串问题(K-Consensus Pattern Problem). 我们借鉴并发展了。随机维选取策略”(Random sampling strategy),取得以下研究成 果: 1.给出0(1)一最近子串问题的一个PTAS. 2.给出00)·最小海明距离和子串问题的一个PTAS. 3.给出了耳一最近串问题(Hammjngtad/us K—clusteringproblem,K.最近子串 问题当L=m时的一个特侧)的(2一E)不可近似性的一个新颖直接的证明. 以上研究结果可望为设计解决repeat相关问题的实用算法有所启发. 关于基因组中非编码区信息结构分析的研究当中本文主要包括以下两方面的工作: 建立了基于EST数据库发现新的neRNA基因的系统方法,并完成了相应的软件. 在利用这些软件寻找ncRNA基因的工作中我们发现了9条序列与已知的ncRNA基因 高度同源,他们有scRNA、SnRNA、趿oRNA和SRP RNA;另有一条可能是人的新 ncRNA候选序列.由此,表明EST数据库中确实包含neRNA基因的信息.这一结果也 证实了我们的方法是正确的、有效的. 针对sARS冠状病毒(SANS Coronavirus,SAILS-CoⅥ中编码5个主要蛋白质的基 因,用生物信息学的方法设计了348条候选siRNA靶位。理论上,相应的siRNA双链 体可能会特异性地抑制SAPoS-CoV靶基因的表达,同时不会影响细胞正常基因.这也为 下一步进行实验研究提供了理论基础. 关键词:DNA序列拼接;算法优化;ncRNA基因发现;K-Closest Substring; siRNA设计 英文摘要Abstract 英文摘要 Abstract DNA Sequence Assembly Algorithm and New ncRNA Gene Finding Xu 3in酸l(Computer Applied Technology) Directed By Li Guojie Wi抽the great advance in the Genomics,Bioinformatics makes a rapid progress synchronously.This曲esis focUSeS 011 the two important branches in Bjoinformatics,whicjl are“DNA Sequence Assembly”and。Non—coding Gene Analysis”. Specifically, we develop a novel assembly algorithm.research Oil the theoretical probl咖s related to Repeat Separation,develop a novel potential·ncRNA-gene-finding method and design the siRNA£o SARs proteins. The main achievements are listed as follows. A new DNA Sequence assembly aigorithm is developed,The key idea is that we embed the sequence assembly problem into the“Shortest Common Substring”(sos) framework and the“Local Sea

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档