用核糖体扫描模型预测翻译起始位点.pdfVIP

下载本文档

151
0
约1.57万字
约 8页
2017-04-11 发布于北京
举报
版权申诉

用核糖体扫描模型预测翻译起始位点.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

用核糖体扫描模型预测翻译起始位点.pdf

2007 年 3 月第四卷第2期内蒙古大学学报〈自然科学版〉 Journal of lnner Mongolia University Mar. 2007 Vol. 38 No.2 文章编号 :1000--1638(2007)02-0173-08 引言用核糖体扫描模型预测翻译起始位点刘利，李前忠 (内蒙古大学理工学院物理系，呼和浩特 010021) 摘要 z真核生物翻译起始位点 (TIS ， translation initiation site)的正确预测对于基因的正确注释有着重大的意义.在真核生物中，翻译并不都是起始于第一个AUG 密码子，还取决于 AUG 前后序列的信息.结合位置权重矩阵(PWM ， position weight rnatrix)和开放阅读框架(ORF ， open reading frarne)的长度分布特征建立了简单的方法识别翻译起始位点，此方法能很好地区分上游AUG 和 TIS. 对于脊椎动物以及人类的 rnRNA 序列，运用核糖体扫描模型预测其翻译起始位点得到了很好的预测率. 关键词 z翻译起始位点自核糖体扫描模型;ül.置权重矩阵 s开放阅读框架中图分类号 :Q61 文献标识码:A 蛋白质的合成包括翻译的起始、肤链的延伸、肤链的终止及释放.核糖体是蛋白质合成的场所， mRNA 是蛋白质合成的模板，转移 RNA(tRNA)是模板与氨基酸之间的接合体.在真核生物细胞核内合成的mRNA，只有被运送到细胞质部分，才能翻译生成蛋白质.所谓翻译是指以mRNA 序列为模板，从一个特定的起始位点开始按照三联体方式指导一条多肤链合成的过程.在mRNA 中，蛋白质开始合成的位置，我们称为翻译起始点 (Translation Initiation Site). 真核生物中，绝大多数情况下由密码子AUG 起始，但并不是所有的AUG 都作为翻译起始点.一般的，在 mRNA 序列中，核糖体 40S 小亚基识别 5帽子端并结合上去形成起始复合物，然后沿着mRNA 向 3端滑动，直到发现合适的AUG 作为起始密码子，60S 亚基结合上来，形成 80S 核糖体开始翻译(1咱.1989 年，Kozak 对 699 条脊椎动物mRNA 序列作了统计，指出 90%以上的真核生物翻译起始于第一个AUG 密码子ω) 如果是这样，那么仅仅应用 first-AUG 规则对真核生物全长mRNA 的翻译起始点的预测就应该达到 90%以上，但事实并非如此.1997 年，Pedersen 和Nielsen 分析了 3312 条脊椎动物的mRNA 序列，指出有近40%的序列含有上游AUG(5).这就使翻译起始位点的预测变得很重要. 自从 1982 年以来，各种机器学习方法已被成功用于翻译起始点的预测. Stormo 等人将感知器算法应用于 E. coli 的翻译起始位点的预测中闭，但文章中没有给出确定的结果.1987 年，Kozak 提出脊椎动物mRNA 翻译起始点附近存在保守序列为:GCC [AG ]CCatgG，其中，一 3 位的瞟岭(A 或 G)和 +4 位的G 最保守(4).1997 年，Pedersen 和 Nielsen 建立了两个高质量的数据库，分别是523 条拟南芥的mRNA 序列和 3312 条脊推动物的 mRNA 序列.并用人工神经网络的方法对翻译起始位点做了预测，对于拟南芥的库获得了 88%的总预测率，对于脊椎动物的库得到了 85%的总预测率由(总预测率 TP+TN 是用公式 Acc= 定义的，文献 (7J 中给出了详细的解释).在这之后，很多方法被 TP+TN+FN+FP 用来预测此脊椎动物数据库的翻译起始位点，如线性判别(8)、支持向量机队10)、参数选择方法结合核收稿日期: 2006-07-25 基金项目 g国家自然科学基金资助项目作者简介 2刘利(1981-) ，男，内蒙古赤峰市人，内蒙古大学 2004 级硕士研究生. 174 内蒙古大学学报(自然科学版) 2007 年糖体扫描模型α肌川.1 物的数据库上训练，总预测率为 9归4.4% ，但是参数选择的方法使用了大量特殊的 K 联体碱基作为参数，对库的依赖性很大.文献(14)中用了两个人工神经网络和核糖体扫描模型，在 475 条人类 cDNA 序列上训练获得了 94%的总预测率，我们注意到在这 475 条人类cDNA 序列中注释的翻译起始点全都在前三个AUG 内，并且，大多数的翻译起始点是第一个AUG，所以得到较高的结果不足为奇. 本文中，我们用k 联体位置权重矩阵在3312 条的脊椎动物的数据库做了基本的训练，交叉检验得到了 87.4%的总体预测率.我们是用短阵打分来体现序列的相似程