- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3、代谢通路注释 KEGG(Kyoto encyclopedia of genes and genomes) 二、RNA基因的注释 三、重复序列的注释 (一)串联重复序列的注释 Tandem Rpeats Finder (二)转座元件的注释 1、构建黄瓜特意的de novo TE库 TE预测软件:ReAS、RepeatScout、PILER和LTR_FINDER 2、黄瓜的de novo TE库的分类 3、基因组水平上的转座元件的注释 四、假基因的注释 第五章:真核生物基因组的注释 普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics 第一节 蛋白质编码基因的注释 注释策略: (一)、基于证据的注释,即根据已有的实验证据(如cDNA)、表达序列标签(EST)和蛋白质序列进行蛋白质编码基因的注释。 (二)、从头开始(ab initio)的基因预测,即只根据基因组的DNA序列对蛋白质编码基因进行预测。 (三)、重新(de novo)基因预测,即通过与其他物种的基因组进行比较,从而预测一个新基因组中的蛋白质编码基因。 一、基于证据的基因注释 (一)顺式比对 顺式比对是使用被注释基因组的cDNA或者蛋白质序列与基因组序列进行比对后得到的最好的比对位点,而这个位点常常被认为就是转录或者翻译形成cDNA或者蛋白质的基因。 常用的顺式比对程序如AAT、SIM4、Splign等。 (二)反式比对 反式比对是使用cDNA或者蛋白质序列与基因组进行比对得到同源位点(比对所用的cDNA或者蛋白质并不来自于这个位点,往往属于同一个基因家族)。 常用的反式比对工具有BLAT、Exonerate和GeneWise 。 二、从头开始的基因预测 从基因组测序一开始,一个明确的目标就是能够准确地进行从头开始(ab initio)的基因预测,即只依赖蕴含在DNA序列内部的信息来确定基因结构。 从头开始的基因预测包括两个主要步骤,即蛋白质编码基因特征的识别和基因结构的生成。 从头预测基因软件:GENSCAN 三、重新基因预测 重新预测软件:Twinscan、SGP2、SLAM 四、整合信息 (一)人工整合 (二)自动整合 五、蛋白质编码基因的功能注释 常用的数据库主要包括NCBI的NT、NR(非荣冗余蛋白质序列数据库)、UniProt、InterPro、KEGG、KOG等。 第二节 RNA基因的注释 RNA基因是指不编码蛋白质的基因,又称为非编码基因(non-coding gene,ncRNA),其编码产物为一条功能RNA分子。 根据是否需要依赖基因组序列以外的信息RNA基因的预测方法分为两类,一类是基于相似性的预测方法,一类是从头开始的预测方法。 最全面的RNA家族序列和比对信息的数据库之一是Rfam数据库。 第三节 重复序列的注释 串联重复序列(tandem repeat) 分为:microsatellite、minisatellite、satellite 软件:Tandem Repeats Finder 散布的重复序列(dispersed repeat) 大多是转座元件(transposable element,TE),是指可以通过转座(transposition)过程在基因组内不同位置间移动的DNA片段。 转座机制:剪切和粘贴、复制和粘贴 软件:RepeatMasker 第四节 假基因的注释 假基因是基因组中与真基因序列相似但缺乏功能的DNA序列。 non-processed pseudogene 又称为复制型假基因,是通过基因组DNA复制或者不平衡交换产生的,多位于其同源功能基因的附近。 processed pseudogene 又称反转座假基因,来源于反转座事件,由mRNA反转录成cDNA,然后整合到基因组中。 第五节 案例分析:黄瓜基因组的注释 一、蛋白质编码基因的注释 (一)基于证据的基因注释 1、转录物比对 黄瓜基因组使用的转录物数据库有:黄瓜EST和mRNA(NCBI下载)、甜瓜EST(MELOGEN数据库)和TIGR植物转录数据库。 cDNA、EST比对软件PASA和AAT-gap2 2、蛋白质比对 蛋白质数据来自UniProt数据库 比对软件:AAT-nap和Genewise (二)构建基因预测训练集 基因预测训练集的构建对于从头开始基因预测及EVM 中权重的训练都是至关重要的。 (三)从头开始的基因预测 从头开始基因预测软件——BGF、GlimmerHMM、SNAP和GENSCAN (四)EVM基因预测自动整合系统 (五)基因功能注释 1、寻找同源基因 使用BLASTp在UniProt数据库中进行相似性搜索同源基因。 2、结构域和GO
文档评论(0)