在高通量测序背景下对于识别编码蛋白RNA和长非编码RNA的研究.pdf

在高通量测序背景下对于识别编码蛋白RNA和长非编码RNA的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
在高通量测序背景下对于识别编码蛋白RNA和长非编码RNA的研究

提 要 近年来高通量测序技术在全球范围内被广泛应用,对于高通量测序技术重新构建出 来的转录本,特别是来自于没有完备基因注释的物种的转录本来说,对其属于编码蛋白 RNA 还是非编码 RNA 进行分类,是一个项非常紧迫的任务,同时也是一个巨大的挑战, 该工作也是接下来RNA功能研究或者调控网络研究的重要前提。相邻的核苷酸三聚体的 出现频率在编码RNA和非编码RNA中存在显著的偏好性,基于此偏好性,本文引入动态 规划算法、提取出分类特征,使用人类的已知转录本序列数据训练了一个支持向量机分 类模型,并且开发了一个分类功能显著的应用软件:CNCI(Coding and Noncoding Index)。 在后期的验证中本文参考了大量的带有注释信息的 RNA 序列进测试,证实了 CNCI 具有 非常高的分类精度,可以应用到高通量测序数据所产生的大量转录本数据上。为了测试 模型的适用范围,本文将 CNCI 应用到多物种的全转录组测序所重构的转录本上,通过 对脊椎动物、非脊椎动物和植物的转录本进行了大批量的实验,并且发现脊椎动物的相 邻核苷酸三聚体基本属于同一个模型,但是该模型并不适用于非脊椎动物和植物,这也 从另一个层面展示了物种之间一种进化趋势。最后,我们将 CNCI 应用到人类和红毛猩 猩的长非编码RNA的鉴定工作中,重新注释了红毛猩猩的转录组,并且对鉴定到的人类 长非编码RNA做了可靠的功能预测分析,对其长非编码RNA的注释工作做了重要的补充。 摘 要 摘 要 在高通量测序背景下对于识别 编码蛋白RNA和长非编码RNA的研究 随着高通量测序技术在全球范围内的广泛应用,从很多物种中产生(重构)了海量 的转录本序列,其中包括人类、小鼠、大鼠等常见的哺乳动物,也包括大肠杆菌、线虫、 果蝇拟南芥等其他模式生物。特别是在人类和小鼠中有大量的长非编码RNA被发现,有 些长非编码RNA已经被研究证实参与到许多重要的生命过程之中,如细胞分化、免疫反 应、信号通路及代谢调控途径等。探索长非编码RNA的功能,以及和编码RNA共同所组成 的调控网络已经成为当前的一个研究热点。但是目前仍然有大量长非编码RNA在很多物 种之中还未被鉴定出来,这也是生物信息科学家们迫切期待解决的问题之一。因此对这 些转录本进行编码或者非编码的分类是一项十分紧迫的工作。要想很好地完成这个工 作,就要克服以下两个难点:首先由于被高通量测序所构建出来的转录本数目巨大、跨 多个物种而且在很多物种并没有完备的基因组注释信息,特别是对于长非编码RNA来讲, 这种注释信息更加匮乏,即便对人类和小鼠这些被广泛关注的物种来说,也只有小部分 长非编码RNAs被注释并且收录。其次,由于且高通量测序技术本身就存在一些不可避免 的错误概率,换句话说,在测序的过程中会以一定的概率随机的测错一些碱基,加之后 续重构转录本的时候,可能会出现序列拼接不全等情况,这些问题都会导致我们通过高 通量测序所拿到的转录本序列存在失真的可能性。以上提到的注释信息不全和转录本质 量问题都使得本文所提出的这个分类工作变得更加具有挑战性。我们开发了一个名为 “编码蛋白RNAs与长非编码RNAs索引”的分类软件。该软件基于相邻核苷酸三聚体在编 码区域和非编码区域分布有偏的特性,能够在没有任何注释信息的前提下精准的完成编 码蛋白和非编码RNA的分类标注工作。此外,在本文中所提到的相邻的核苷酸三聚体的 有偏分布情况也被之前的研究人员的科研成果所支持,有研究表明转运RNA(tRNA)在核 糖体上的位置选择是具有偏好性的,即某两个tRNA总是喜欢成对的出现,并且根据中心 法则的原理tRNA在核糖体上会和核苷酸三聚体(在编码蛋白RNA的CDS区域称之为密码 子)相结合以便翻译出氨基酸,而基因组在漫长的进化过程中会受到各种各样的选择压 I 吉林大学博士学位论文 力,特别是在编码区域的核酸序列,它们沿着最优编码压力的方向进化,而非编码区域 则不必要承受这种选择压力。因此在编码蛋白RNAs的CDS(主要编码序列)区

文档评论(0)

tianebandeyazi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档