- 2
- 0
- 约1.82万字
- 约 54页
- 2017-05-22 发布于广东
- 举报
基因组测序技术和基因识别完整版
基于编码区域碱基组成特征的识别方法 编码序列与非编码序列在碱基组成上有区别 单个碱基的组成比例 多个碱基的组成 通过统计分析识别编码序列 2、真核基因识别问题 真核基因远比原核基因复杂: 一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。 另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因上游区域。 基因识别基本思路 找出基因两端的功能区域: 转录启动区 终止区 在启动区下游位置寻找翻译起始密码子 识别转录剪切位点 剪切给体位点 剪切接受体位点 各种不同的方法有不同的适应面,而不同的方法有时可以结合起来以提高基因识别的准确率。 关键问题是如何提高一个识别算法的敏感性(sensitivity,Sn)和特异性(specificity,Sp)。 3、基因识别的主要方法 两大类识别方法: 从头算方法(或基于统计的方法) 根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域 基于同源序列比较的方法 利用数据库中现有与基因有关的信息(如EST序列、蛋白质序列),通过同源比较,帮助发现新基因。 最理想的方法是综合两大类方法的优点,开发混合算法。 基因识别方法有 : (1)基于规则的系统 (2) 语义学方法 (3) 线性辨别分析(LDA) (4) 决策树 ? (5) 动态规划 ?(6) 隐马尔柯夫模型 ? (7) 剪切对比排列 (spliced alignment) 4、基因识别程序介绍 表5.7 基因识别程序及访问地址 (HP—主页;ES—E-mail服务器;WS—web服务器;CL—客户/服务器协议; EX—有可执行代码;SC—有源代码) 表5.8 各程序的性能比较(敏感性(1)—被预测出的真实编码核酸的%; 敏感性(2)—被正确识别出的编码外显子的%; 特异性(1)—预测出的编码核酸为真实编码核酸的%; 特异性(2)—预测出外显子为真实外显子的%) Genscan 访问: /GENSCAN.html 以核酸序列SEQ5作综合分析为例 SEQ5 》seq5 1 gaattccagg ttggaggggc ggcaacctcc tgccagcctt caggccactc tcctgtgcct 61 gccagaagag acagagcttg aggagagctt gaggagagca ggaaaggtgg aacattgctg 121 ctgctgctca ctcagttcca caggtgggag gaacagcagg gcttagagtg ggggtcattg 181 tgcagatggg aaaacaaagg cccagagagg ggaagaaatg cctaggagct accgagggca 241 ggcgacctca accacagccc agtgctggag ctgtgagtgg atgtagagca gcggaatatc 301 cattcagcca gctcagggga aggacagggg ccctgaagcc aggggatgga gctgcaggga 361 agggagctca gagagaaggg gaggggagtc tgagctcagt ttcccgctgc ctgaaaggag 421 ggtggtacct actcccttca cagggtaact gaatgagaga ctgcctggag gaaagctctt 481 caagtgtggc ccaccccacc ccagtgacac cagcccctga cacgggggag ggagggcagc 541 atcaggaggg gctttctggg cacacccagt acccgtctct gagctttcct tgaactgttg 601 cattttaatc ctcacagcag ctcaacaagg tacataccgt caccatcccc attttacaga 661 tagggaaatt gaggctcgga gcggttaaac aactcacctg aggcctcaca gccagtaagt 721 gggttccctg gtctgaatgt gtgtgctgga ggatcctgtg ggtcactcgc ctggtagagc 781 cccaaggtgg aggcataaat gggactggtg aatgacagaa ggggcaaaaa tgcactcatc 841 cattcactct gcaagtatct acggcacgta cgccagctcc caagcaggtt tgcgggttgc 901 acagcggagc gatgcaatct gatttaggct
原创力文档

文档评论(0)