基因组学第5章教材.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章 基因组序列注释 1) 搜寻基因 2) 基因功能预测 3) 基因功能检测 4) 功能基因组研究 5.1 搜寻基因 基因注释的依据 1) 根据基因结构特征搜寻基因 2) 同源基因查询 3) 实验确认基因 密码子偏爱 针对个别生物的策略 1) 脊椎动物许多基因的上游都有CpG岛。 2) 水稻基因5’端含有很高的GC含量。 5.1.2 同源基因查询 同源性,一致性和相似性的定义 1) 同源(homological) 基因系指起源于同一祖先但顺序已经发生变异的基因成员, 分布在不同物种间的同源基因又称直系基因. 同一物种的同源基因则称水平基因, 水平基因由重复后趋异产生. 2) 基因同源性只有“是”和“非”的区别, 无所谓百分比. 3) 一致性(identity)系指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示. 4) 相似性(similarity)系指同源蛋白质的氨基酸顺序中一致性氨基酸和可取代氨基酸所占的比例. 可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员, 它们之间的代换不影响蛋白质(或酶)的生物学功能. 相似性与一致性 249 MFN-MAI PFGAGAYAQALNQQQAALMASVAQGG 232 I LTSL TLPFS AGAYAQALNQQQTTV I S - -T S GS 注: 红色为一致性氨基酸, 蓝色为可取代氨基酸, 白色为趋 异氨基酸. 一致性氨基酸百分比为红色氨基酸所占的比例. 相似性氨基酸百分比为红色和蓝色氨基酸相加所占的比 例. 同源查询(氨基酸顺序) 氨基酸的同源性比DNA更为可靠,因为绝大多数同源基因在功能上具有相似性,这种相似性体现在关键的氨基酸通常占据相同的位置。 现有基因注释软件的特点 1)目前基因注释程序的编写主要依据两种信息内涵: 1.signal terms (信号指令), 如起始密码, 终止密码, 终止信号, 剪接受体位与供体位顺序, 多聚嘧啶顺序等保守的顺序组成; 2.content terms (内容指令), 如密码子使用偏好. 2)常用的注释软如GenScan主要偏重于内容指令, 而FgeneSH则着重于信号指令. 对结构紧凑的小基因组上述注释软件效果不错,但对大基因组特别是超长基因的注释有很大困难.在一个长度数十或数百kb的内含子中, 存在许多可能误判的信号指令. 在超长基因注释中常出现正向错误(false-positive, 多注释)或负向错误(false-negetive, 少注释). 引自: Nature Reviews/Genetics, 4:741-749,2003. 基因自动注释软件的问题 1) 基因注释一般包括如下内容: 基因组DNA顺序中确切的转录为mRNA的顺序; 外显子和内含子的位置; 基因编码的蛋白质顺序. 2) 在目前即使已有很好研究基础的生物中, 最好的计算机基因注释程序对每个外显子注释的准确率也只能达到80%.如果一个基因有5个外显子, 整个基因注释的准确率为0.85=33%. 3) 基因注释的软件通常容易犯误拼和误拆的错误, 即将两个基因归在一个, 或者反过来. 4) 容易遗漏很小的外显子, 特别是保守性不强的基因. 5) 容易忽略小基因,尤其是基因内基因. 6) 无法预测mRNA中5’-和3-’非翻译区(UTR)的边界, 即很难确定转录起点与终点. 不同注释软件比较 1) 目前基因组注释的软件绝大多数都是根据已有基因结构的数据编写的,具有很多的经验成分. 2) 由于各家采用的注释软件不同, 注释结果有很大的差别, 如人类基因组测序计划(HGP)注释的基因与Celara公司注释的基因仅2/3一致. 不同注释软件之间的效率 Performance of three popular gene prediction programs on 42 semiartificial genomic sequences containing 178 known human gene sequences (900 exons). Sensitivity(敏感性) is percentage of exons that are predicted correctly. Specificity(专一性) is percentage of predicted exons that are correct. Reproduced with changes from Yad

文档评论(0)

花仙子 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档