- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五节 基因识别
对于基因组DNA序列中的基因识别方法,人们研究已近二十年,这是生物信息学领域里的一个重要研究内容(Fickett JW,1995, 1996; Gelfand,1995)。基因识别问题,在近几年受到广泛的重视。当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或未经注释的DNA序列,例如将序列分为基因、启动子(Promoter)、转录调节区等。由于DNA测序技术的迅速发展,全部测定人类基因组序列(总共3000MB)的任务即将完成,有效地解决基因识别问题显得越来越迫切。为探索人类基因组,发现隐含其中的奥秘,计算分析将是不可缺少的方法。
1、原核基因识别
编码区域两端的DNA,有一部分被转录,但是不被翻译,这一部分称为非翻译区域(untranslated regions, UTR),其中基因上游区域的非翻译区域为5’UTR,下游区域的非翻译区域为3’UTR。
对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。例如,序列ATTCGATCGCAA,可能一种密码子阅读顺序为ATT、CGA、TCG、CAA,另外两种可能的密码子阅读顺序分别为A、TTC、GAT、CGC、AA和AT、TCG、ATC、GCA、A。这三种阅读顺序称为阅读框(reading frames),一个开放阅读框(ORF,open reading frame)是一个没有终止编码的密码子序列。
5 启动子 5’UTR 编码区域 3’UTR 终止区 3’
起始密码子
转录位点 终止密码子
图5.6 原核基因结构
原核基因结构相对比较简单(如图5.6所示),其基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。辨别编码区域与非编码区域的一种方法是检查终止密码子的出现频率。由于一共有64个密码子,其中3个是终止密码子,因此,如果一条核酸序列是均匀随机分布的,那么终止密码子出现的期望次数为:每21个((64/3)密码子出现一次终止密码子。蛋白质的平均长度比较长,其编码区域的长度大约为1000bp。但是,每个编码区域只存在一个终止密码子,该密码子作为编码区域的结束标志。因此,如果能够找到一个比较长的序列,其相应的密码子序列不含终止密码子,则这段序列可能就是编码区域。在实现基于上述思想的算法时,扫描给定的DNA序列,在三个不同的阅读框中寻找较长的ORF。遇到终止密码子以后,回头寻找起始密码子。这种算法过于简单,不适合于处理短的ORF或者交叠的ORF。
识别编码区域的另一种方法是分析各种密码子出现的频率。例如,亮氨酸、丙氨酸、色氨酸分别有6个、4个和1个密码子,将一个随机均匀分布的DNA序列翻译成氨基酸序列,则在氨基酸序列中上述3种氨基酸出现的比例应该为6:4:1,但是在真实的氨基酸序列中,上述比例并不正确。这说明DNA的编码区域并非随机。
假设在一条DNA序列中已经找到所有的ORF,那么可以利用密码子频率进一步区分编码ORF和非编码ORF。将每个ORF翻译为相应的密码子序列,得到一个64个状态的马尔柯夫链。这里,为每个密码子分配一个状态,状态转换概率即为一个密码子跟随在其他密码子后面的概率。利用这种方法,可以计算一个ORF成为编码区域的可能性。
在识别编码区域的马尔柯夫链模型中,一个密码子出现的概率依赖于其前面一个密码子,下面考虑另一个简单的统计模型,在该模型中,假设相继的密码子是独立的,不存在前后依赖关系。令fabc代表密码子abc在编码区域出现的频率。给定一个不知道阅读框的编码序列a1,b1,c1, a2,b2,c2,…, an+1,bn+1, 对于从密码子a1b1c1开始的阅读框,其n个密码子的出现概率为
(5-61)
同样,在第二种和第三种阅读框n个密码子出现的概率分别为
(5-62)
(5-63)
令Pi代表第i个阅读框成为编码阅读框的概率(假设已知该区域是编码的),其值按下列公式计算:
(5-64)
在设计算法时,在给定的序列上移动长度为n的窗口,对窗口的每个位置按上式计算Pi,并根据Pi的值识别编码的阅读框。软件包CGC中的Codon Preference程序采用的就是这种方法。
此外,利用密码子第三位的偏性,也可以预测编码区域。这种方法的准确率取决于对已知基因的统计,统计样本数必须足够多。
并不是所有的开放阅读框都被转录,是否转
您可能关注的文档
- 第二届宁夏国际心血管病论坛会议日程一览表要领.doc
- 2016年执业护士资格考试大纲(试行)介绍.doc
- 八年级下册生物复习提纲-附件.doc
- 第一部分选题及创新.doc
- 肥西师范学校听觉、言语康复平台系统和特殊部课程建设课.doc
- 第九章 湖北省高等教育自学考试课程考试大纲.doc
- 财政部对2014年修订会计从业资格考试大纲进行了修订,.docx
- 「仁」及阳明的「天下一家」――建构一种「背景哲学」方.doc
- 第五章 鄂州市主要地质灾害隐患点一览表.doc
- 第一章 2015年8月应急办科技文献检索结果一览表.doc
- 半导体材料性能提升技术突破与应用案例分析报告.docx
- 半导体设备国产化政策支持下的关键技术突破与应用前景报告.docx
- 剧本杀市场2025年区域扩张策略研究报告.docx
- 剧本杀行业2025人才培训体系构建中的市场需求与供给分析.docx
- 剧本杀行业2025年人才培训行业人才培养模式创新与探索.docx
- 剧本杀行业2025年内容创作人才需求报告.docx
- 剧本杀行业2025年区域市场区域剧本市场消费者满意度与市场竞争力研究报告.docx
- 剧本杀市场2025年区域竞争态势下的区域合作策略分析报告.docx
- 剧本杀行业2025人才培训与行业人才培养模式创新.docx
- 剧本杀行业剧本创作人才心理素质培养报告.docx
最近下载
- 水利工程质量检测员网上继续教育考试题库及答案混凝土专业试题及答案.pdf VIP
- 李白《将进酒》原文及赏析通用5篇.doc VIP
- 《自动喷水灭火系统施工及验收规范》GB50261-2017.docx VIP
- 小学英语_Unit 4 Lesson3 There are twenty pupils in my class教学设计学情分析教材分析课后反思.doc
- 2025贵州省旅游产业发展集团有限公司招聘115人备考试题及答案解析.docx VIP
- 《凤凰男的豪门贤妻》剧本整本.docx VIP
- 2013年水利工程质量检测员网上继续教育考试题库及答案-混凝土专业.pdf VIP
- 消毒技术规范2022.docx VIP
- 阳台封装施工安全协议书5篇.docx
- 消毒技术规范(2022).docx VIP
文档评论(0)