- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
五节基因识别第1页/共57页第2页/共57页第五节 基因识别第3页/共57页基因识别基因识别是生物信息学领域里的一个重要研究内容 基因识别问题,在近几年受到广泛的重视 当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或未经注释的DNA序列 第4页/共57页原核基因识别 重点在于识别编码区域第5页/共57页非翻译区域(untranslated regions, UTR) 编码区域两端的DNA,有一部分被转录,但是不被翻译,这一部分称为非翻译区域 5’UTR---基因上游区域的非翻译区域 3’UTR---基因下游区域的非翻译区域第6页/共57页对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。例如,序列ATTCGATCGCAA这三种阅读顺序称为阅读框(reading frames)(1)CAA ATTCGATCG(2)ATTCGATCGCAAA (3)ATTCGATCGCA第7页/共57页一个开放阅读框(ORF,open reading frame)是一个没有终止编码的密码子序列。原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。第8页/共57页基于基因密码子特性的识别方法辨别编码区域与非编码区域的一种方法是检查终止密码子的出现频率 终止密码子出现的期望次数为: 每21个(? 64/3)密码子出现一次终止密码子 第9页/共57页基本思想:如果能够找到一个比较长的序列,其相应的密码子序列不含终止密码子,则这段序列可能就是编码区域。基本算法:扫描给定的DNA序列,在三个不同的阅读框中寻找较长的ORF。遇到终止密码子以后,回头寻找起始密码子。这种算法过于简单,不适合于处理短的ORF或者交叠的ORF。第10页/共57页识别编码区域的另一种方法是分析各种密码子出现的频率 例如,亮氨酸、丙氨酸、色氨酸分别有6个、4个和1个密码子将一个随机均匀分布的DNA序列翻译成氨基酸序列,则在氨基酸序列中上述3种氨基酸出现的比例应该为6:4:1但是在真实的氨基酸序列中,上述比例并不正确这说明DNA的编码区域并非随机第11页/共57页假设在一条DNA序列中已经找到所有的ORF,那么可以利用密码子频率进一步区分编码ORF和非编码ORF马尔柯夫链模型利用这种方法,可以计算一个ORF成为编码区域的可能性。第12页/共57页一个简单的统计模型 假设相继的密码子是独立的,不存在前后依赖关系。 令fabc代表密码子abc在编码区域出现的频率 给定序列 a1,b1,c1, a2,b2,c2,…, an+1,bn+1 从密码子a1b1c1开始的阅读框,其n个密码子的出现概率为第13页/共57页第二种和第三种阅读框n个密码子出现的概率分别为第14页/共57页第i个阅读框成为编码阅读框的概率 计算:算法: 在序列上移动长度为n的窗口,计算Pi 根据Pi的值识别编码的阅读框第15页/共57页基于编码区域碱基组成特征的识别方法编码序列与非编码序列在碱基组成上有区别单个碱基的组成比例多个碱基的组成通过统计分析识别编码序列第16页/共57页分析实例第17页/共57页第18页/共57页2、真核基因识别问题 真核基因远比原核基因复杂:一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因上游区域。 第19页/共57页第20页/共57页第21页/共57页基因识别基本思路 找出基因两端的功能区域: 转录启动区 终止区 在启动区下游位置寻找翻译起始密码子 识别转录剪切位点剪切给体位点剪切接受体位点第22页/共57页各种不同的方法有不同的适应面,而不同的方法有时可以结合起来以提高基因识别的准确率。关键问题是如何提高一个识别算法的敏感性(sensitivity,Sn)和特异性(specificity,Sp)。 第23页/共57页3、基因识别的主要方法两大类识别方法:从头算方法(或基于统计的方法)根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域 基于同源序列比较的方法利用数据库中现有与基因有关的信息(如EST序列、蛋白质序列),通过同源比较,帮助发现新基因。最理想的方法是综合两大类方法的优点,开发混合算法。第24页/共57页基因识别方法有 : (1)基于规则的系统 (2) 语义学方法 (3) 线性辨别分析(LDA) (4) 决策树 ? (5) 动态规划 ?(6) 隐马尔柯夫模型 ? (7) 剪切对比排列 (spliced alignment)第25页/共57页4、编码区域识别两类方法 :基于特征信号的识别 内部外显子 剪切位点5’端的外显子一定在核心启动子的
您可能关注的文档
最近下载
- 中国空调设备行业市场深度研究及发展趋势预测报告.docx
- 砖胎模监理细则.docx VIP
- 2025年中国水上运输船舶行业市场全景调研及投资规划建议报告.docx
- 火力发电厂机组A级检修安全监理细则.pdf VIP
- Q/GDW 13007.12-2018 110kV油浸式电力变压器采购标准(第12部分:110kV80MVA三相三绕组电力变压器专用技术规范).pdf VIP
- 化学危险品的认知与防护.ppt VIP
- 青岛版二年级上册期中考试数学试卷.doc VIP
- 中国人的九种体质-完整版中国人的九种体质-完整版.doc VIP
- GB50235-2010 工业金属管道工程施工规范.pdf VIP
- 医务科【住院病历质控检查评分表】标准规范人民医院及中医医院二甲三甲等级评审用模板.docx
原创力文档


文档评论(0)