- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章 基因组序列注释 1) 搜寻基因 2) 基因功能预测 3) 基因功能检测 4) 功能基因组研究 5.1 搜寻基因 基因注释的依据 1) 根据基因结构特征搜寻基因 2) 同源基因查询 3) 实验确认基因 密码子偏爱 针对个别生物的策略 1) 脊椎动物许多基因的上游都有CpG岛。 2) 水稻基因5’端含有很高的GC含量。 5.1.2 同源基因查询 同源性,一致性和相似性的定义 1) 同源(homological) 基因系指起源于同一祖先但顺序已经发生变异的基因成员, 分布在不同物种间的同源基因又称直系基因. 同一物种的同源基因则称水平基因, 水平基因由重复后趋异产生. 2) 基因同源性只有“是”和“非”的区别, 无所谓百分比. 3) 一致性(identity)系指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示. 4) 相似性(similarity)系指同源蛋白质的氨基酸顺序中一致性氨基酸和可取代氨基酸所占的比例. 可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员, 它们之间的代换不影响蛋白质(或酶)的生物学功能. 相似性与一致性 249 MFN-MAI PFGAGAYAQALNQQQAALMASVAQGG 232 I LTSL TLPFS AGAYAQALNQQQTTV I S - -T S GS 注: 红色为一致性氨基酸, 蓝色为可取代氨基酸, 白色为趋 异氨基酸. 一致性氨基酸百分比为红色氨基酸所占的比例. 相似性氨基酸百分比为红色和蓝色氨基酸相加所占的比 例. 同源查询(氨基酸顺序) 氨基酸的同源性比DNA更为可靠,因为绝大多数同源基因在功能上具有相似性,这种相似性体现在关键的氨基酸通常占据相同的位置。 现有基因注释软件的特点 1)目前基因注释程序的编写主要依据两种信息内涵: 1.signal terms (信号指令), 如起始密码, 终止密码, 终止信号, 剪接受体位与供体位顺序, 多聚嘧啶顺序等保守的顺序组成; 2.content terms (内容指令), 如密码子使用偏好. 2)常用的注释软如GenScan主要偏重于内容指令, 而FgeneSH则着重于信号指令. 对结构紧凑的小基因组上述注释软件效果不错,但对大基因组特别是超长基因的注释有很大困难.在一个长度数十或数百kb的内含子中, 存在许多可能误判的信号指令. 在超长基因注释中常出现正向错误(false-positive, 多注释)或负向错误(false-negetive, 少注释). 引自: Nature Reviews/Genetics, 4:741-749,2003. 基因自动注释软件的问题 1) 基因注释一般包括如下内容: 基因组DNA顺序中确切的转录为mRNA的顺序; 外显子和内含子的位置; 基因编码的蛋白质顺序. 2) 在目前即使已有很好研究基础的生物中, 最好的计算机基因注释程序对每个外显子注释的准确率也只能达到80%.如果一个基因有5个外显子, 整个基因注释的准确率为0.85=33%. 3) 基因注释的软件通常容易犯误拼和误拆的错误, 即将两个基因归在一个, 或者反过来. 4) 容易遗漏很小的外显子, 特别是保守性不强的基因. 5) 容易忽略小基因,尤其是基因内基因. 6) 无法预测mRNA中5’-和3-’非翻译区(UTR)的边界, 即很难确定转录起点与终点. 不同注释软件比较 1) 目前基因组注释的软件绝大多数都是根据已有基因结构的数据编写的,具有很多的经验成分. 2) 由于各家采用的注释软件不同, 注释结果有很大的差别, 如人类基因组测序计划(HGP)注释的基因与Celara公司注释的基因仅2/3一致. 不同注释软件之间的效率 Performance of three popular gene prediction programs on 42 semiartificial genomic sequences containing 178 known human gene sequences (900 exons). Sensitivity(敏感性) is percentage of exons that are predicted correctly. Specificity(专一性) is percentage of predicted exons that are correct. Reproduced with changes from Yad
您可能关注的文档
- 基因测序流程教材.ppt
- 会计错账更正教材.ppt
- 宏观经济学高鸿业版教材.ppt
- 基因测序与组装教材.ppt
- 会计档案整理——榆次区档案局教材.ppt
- 汉普物流理论与实践教材.ppt
- 基因的表达基因对性状的控制教材.ppt
- 汉语和英语被动意义上的差别教材.ppt
- 会计的昨天今天和明天教材.ppt
- 宏观经济学高鸿业教材.ppt
- 西安理工大学高科学院《宽带接入与互联网通信》2023-2024学年第一学期期末试卷.doc
- 江苏省横林高级中学2024届高三(最后冲刺)语文试卷含解析.doc
- 吉林省长春外国语校2025届第二学期教学质量检测试题初三英语试题(二模)含答案.doc
- 西北工业大学《统计软件应用实训》2023-2024学年第一学期期末试卷.doc
- 江苏省辅仁高级中学2025年高考语文试题二模试题及参考答案含解析.doc
- 黑龙江省牡丹江管理局2025届初三下学期教学质量检查物理试题理试题含解析.doc
- 联盟)山东省菏泽一中2025届高三第五次模拟考试英语试题试卷含解析.doc
- 陕西交通职业技术学院《中华文明简史》2023-2024学年第一学期期末试卷.doc
- 2025年江西省景德镇一中初三阶段性调研测试数学试题不含附加题含解析.doc
- 重庆市重庆一中2024年高三第六次模拟考试英语试卷含解析.doc
文档评论(0)