- 186
- 0
- 约7.83千字
- 约 46页
- 2016-10-09 发布于湖北
- 举报
第5章 基因组序列注释 1) 搜寻基因 2) 基因功能预测 3) 基因功能检测 4) 功能基因组研究 5.1 搜寻基因 基因注释的依据 1) 根据基因结构特征搜寻基因 2) 同源基因查询 3) 实验确认基因 密码子偏爱 针对个别生物的策略 1) 脊椎动物许多基因的上游都有CpG岛。 2) 水稻基因5’端含有很高的GC含量。 5.1.2 同源基因查询 同源性,一致性和相似性的定义 1) 同源(homological) 基因系指起源于同一祖先但顺序已经发生变异的基因成员, 分布在不同物种间的同源基因又称直系基因. 同一物种的同源基因则称水平基因, 水平基因由重复后趋异产生. 2) 基因同源性只有“是”和“非”的区别, 无所谓百分比. 3) 一致性(identity)系指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示. 4) 相似性(similarity)系指同源蛋白质的氨基酸顺序中一致性氨基酸和可取代氨基酸所占的比例. 可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员, 它们之间的代换不影响蛋白质(或酶)的生物学功能. 相似性与一致性 249 MFN-MAI PFGAGAYAQALNQQQAALMASVAQGG 232 I LTSL TLPFS AGAYAQALNQQQTTV I S - -T S GS 注: 红色为一致性氨基酸, 蓝色为可取代氨基酸, 白色为趋 异氨基酸. 一致性氨基酸百分比为红色氨基酸所占的比例. 相似性氨基酸百分比为红色和蓝色氨基酸相加所占的比 例. 同源查询(氨基酸顺序) 氨基酸的同源性比DNA更为可靠,因为绝大多数同源基因在功能上具有相似性,这种相似性体现在关键的氨基酸通常占据相同的位置。 现有基因注释软件的特点 1)目前基因注释程序的编写主要依据两种信息内涵: 1.signal terms (信号指令), 如起始密码, 终止密码, 终止信号, 剪接受体位与供体位顺序, 多聚嘧啶顺序等保守的顺序组成; 2.content terms (内容指令), 如密码子使用偏好. 2)常用的注释软如GenScan主要偏重于内容指令, 而FgeneSH则着重于信号指令. 对结构紧凑的小基因组上述注释软件效果不错,但对大基因组特别是超长基因的注释有很大困难.在一个长度数十或数百kb的内含子中, 存在许多可能误判的信号指令. 在超长基因注释中常出现正向错误(false-positive, 多注释)或负向错误(false-negetive, 少注释). 引自: Nature Reviews/Genetics, 4:741-749,2003. 基因自动注释软件的问题 1) 基因注释一般包括如下内容: 基因组DNA顺序中确切的转录为mRNA的顺序; 外显子和内含子的位置; 基因编码的蛋白质顺序. 2) 在目前即使已有很好研究基础的生物中, 最好的计算机基因注释程序对每个外显子注释的准确率也只能达到80%.如果一个基因有5个外显子, 整个基因注释的准确率为0.85=33%. 3) 基因注释的软件通常容易犯误拼和误拆的错误, 即将两个基因归在一个, 或者反过来. 4) 容易遗漏很小的外显子, 特别是保守性不强的基因. 5) 容易忽略小基因,尤其是基因内基因. 6) 无法预测mRNA中5’-和3-’非翻译区(UTR)的边界, 即很难确定转录起点与终点. 不同注释软件比较 1) 目前基因组注释的软件绝大多数都是根据已有基因结构的数据编写的,具有很多的经验成分. 2) 由于各家采用的注释软件不同, 注释结果有很大的差别, 如人类基因组测序计划(HGP)注释的基因与Celara公司注释的基因仅2/3一致. 不同注释软件之间的效率 Performance of three popular gene prediction programs on 42 semiartificial genomic sequences containing 178 known human gene sequences (900 exons). Sensitivity(敏感性) is percentage of exons that are predicted correctly. Specificity(专一性) is percentage of predicted exons that are correct. Reproduced with changes from Yad
您可能关注的文档
- 画法几何制图第九章标准件和常用件剖析.ppt
- 画图说瑞鑫-剖析.ppt
- 画一幅色彩和谐的画剖析.ppt
- 话说端午剖析.ppt
- 话题作文的审题剖析.ppt
- 话题作文审题训练剖析.ppt
- 话题作文写法指导剖析.ppt
- 淮安水文化剖析.ppt
- 基因组学剖析.ppt
- 基因组与转基因植物剖析.ppt
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
原创力文档

文档评论(0)