真核生物5‘端外顯子和翻译起始位点的预测.docVIP

下载本文档

3
0
约1.32万字
约 14页
2016-11-28 发布于重庆
举报
版权申诉

真核生物5‘端外顯子和翻译起始位点的预测.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

真核生物5‘端外顯子和翻译起始位点的预测

北京大学校长基金论文集（2003年）真核生物翻译起始位点预测 PAGE PAGE 11 真核生物5’端外显子和翻译起始位点的预测 Prediction of First Exons and Translation Initiation Sites in Eukaryotic Genomes 力学与工程科学系 00级胡钢清 Gangqing Hu Dept. of Mechanics and Engineering Science 摘要真核生物翻译起始位点（TIS，translation initiation sites）的正确预测对于基因的正确注释有着重大的意义。本文试图通过发展和结合一些现有的算法来较好地预测出真核生物翻译起始位点。本文算法的得出主要基于三种方法自然结合。我们首先基于简单的权重矩阵方法（WMM，Weight Matrix Method）【1】，发展了多状态信号的熵距离判别分析方法,由此可以得到一些待定ATG信号，这些信号包含了大部分的翻译起始位点。接下来，我们采用WMM找出与该ATG对应的GT信号并将它们之间的序列提出（这里ATG信号以及GT信号的定义详见正文）。通过引入模糊词汇的概念，我们发现翻译起始位点前存在某些模糊词汇，这样可以通过判断ATG信号前是否含有某个“模糊词汇”进一步选出待定ATG信号。最终我们结合了佘振苏教授提出的以统计语言学为特色的多元熵距离（multivariate entropy distance，MED）方法【2】对这些ATG信号对应的阅读框在20维空间中进行多中心聚类形成了预测翻译起始位点的完整算法并达到了较好的结果。 1 引言 2001年2月，人类基因组计划的相关组织和机构公布了人类基因组测序草图【3】，人类基因组计划的提前完成，基因组的研究热点已转向揭示基因信息结构的复杂性与遗传语言的根本规律。其中，基因预测算法的研究也成为对基因组序列进行统计分析的重要目标。所谓基因预测，就是在对DNA序列编码潜能（coding potentials）提出某种模式（pattern）描述的基础上，对一未知的DNA序列上完整的基因结构进行注释。对于原核生物，由于其基因结构较为简单，在基因组的DNA链上表现为一个编码蛋白质的基因对应为一段连续的开放阅读框（open reading frame，ORF），因此，基因预测的问题也相对简单，本人所在的佘振苏教授研究小组已经在这方面取得了很好的结果【4】。但是对于真核生物，它们的基因结构远比原核生物的复杂，许多基因是断裂基因，间断成外显子（exon）和内含子（intron），并且exon在序列中长度比例极小【5】。生物体通过对剪接位点（Splice Site）的剪接等过程最终构成蛋白质。现有很多真核生物基因结构的预测算法就是针对Splice Site的预测，即对外显子的预测，著名的有Genescan，GeneMark等。本质上可以将外显子分为4类：包含起始编码子（start codon）和终止编码子（termination codon）的single exon，包含起始编码子和供体位点（donor site）的first exon，包含受体位点（acceptor cite）和供体位点的internal exon，以及包含受体位点和终止编码子的terminal exon【6】。现有基因预测软件中对于first exon、terminal exon以及single exon，它们的识别精度通常都大大低于internal exon的识别精度【7】。First exon的预测实际上包含了对翻译起始位点的预测。本文重点在于翻译起始位点的预测算法设计，同时也给出了5’端外显子（即first exon）的预测结果。一般认为，对基因结构预测所用到的信息有三部分组成：序列上的信号（signal），内容（content）统计以及与已知基因的相似度（similarity）【8】。我们用到的信息只是包含了前两部分，对ATG信号的多状态熵距离判别分析以及找出模糊词汇是属于信号的范畴，而对阅读框运用MED方法实际上关系到了内容统计。在预测时，我们采用的算法是简单的线性判别。 2 材料我们采用了Kulp Reese（1995）、ALLSEQ【9】以及HMR195【7】三部分数据集，其中前两者的部分序列作为学习集，最后者的部分数据作为测试集。如引言所提到，真核生物的基因按是否含有内含子可以分为多外显子基因以及单外显子基因。实际上，前者在数目上占绝大多数，因而本文关心的是对多外显子基因中的翻译起始位点以及5’端外显子的研究与预测。 Kulp Reese（1995）提供的数据集是通过运用BLASTP【10】