生物信息学的概念及其发展历史.PPTVIP

下载本文档

15
0
约2.06千字
约 29页
2019-05-24 发布于天津
举报
版权申诉

生物信息学的概念及其发展历史.PPT

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

3、代谢通路注释 KEGG（Kyoto encyclopedia of genes and genomes）二、RNA基因的注释三、重复序列的注释（一）串联重复序列的注释 Tandem Rpeats Finder （二）转座元件的注释 1、构建黄瓜特意的de novo TE库 TE预测软件：ReAS、RepeatScout、PILER和LTR_FINDER 2、黄瓜的de novo TE库的分类 3、基因组水平上的转座元件的注释四、假基因的注释第五章：真核生物基因组的注释普通高等教育 “十二五”规划教材生物信息学 Bioinformatics 第一节蛋白质编码基因的注释注释策略： (一)、基于证据的注释，即根据已有的实验证据（如cDNA）、表达序列标签（EST）和蛋白质序列进行蛋白质编码基因的注释。 (二)、从头开始（ab initio）的基因预测，即只根据基因组的DNA序列对蛋白质编码基因进行预测。 (三)、重新（de novo）基因预测，即通过与其他物种的基因组进行比较，从而预测一个新基因组中的蛋白质编码基因。一、基于证据的基因注释（一）顺式比对顺式比对是使用被注释基因组的cDNA或者蛋白质序列与基因组序列进行比对后得到的最好的比对位点，而这个位点常常被认为就是转录或者翻译形成cDNA或者蛋白质的基因。常用的顺式比对程序如AAT、SIM4、Splign等。（二）反式比对反式比对是使用cDNA或者蛋白质序列与基因组进行比对得到同源位点（比对所用的cDNA或者蛋白质并不来自于这个位点，往往属于同一个基因家族）。常用的反式比对工具有BLAT、Exonerate和GeneWise 。二、从头开始的基因预测从基因组测序一开始，一个明确的目标就是能够准确地进行从头开始（ab initio）的基因预测，即只依赖蕴含在DNA序列内部的信息来确定基因结构。从头开始的基因预测包括两个主要步骤，即蛋白质编码基因特征的识别和基因结构的生成。从头预测基因软件：GENSCAN 三、重新基因预测重新预测软件：Twinscan、SGP2、SLAM 四、整合信息（一）人工整合（二）自动整合五、蛋白质编码基因的功能注释常用的数据库主要包括NCBI的NT、NR（非荣冗余蛋白质序列数据库）、UniProt、InterPro、KEGG、KOG等。第二节 RNA基因的注释 RNA基因是指不编码蛋白质的基因，又称为非编码基因（non-coding gene，ncRNA），其编码产物为一条功能RNA分子。根据是否需要依赖基因组序列以外的信息RNA基因的预测方法分为两类，一类是基于相似性的预测方法，一类是从头开始的预测方法。最全面的RNA家族序列和比对信息的数据库之一是Rfam数据库。第三节重复序列的注释串联重复序列（tandem repeat）分为：microsatellite、minisatellite、satellite 软件：Tandem Repeats Finder 散布的重复序列（dispersed repeat）大多是转座元件（transposable element，TE），是指可以通过转座（transposition）过程在基因组内不同位置间移动的DNA片段。转座机制：剪切和粘贴、复制和粘贴软件：RepeatMasker 第四节假基因的注释假基因是基因组中与真基因序列相似但缺乏功能的DNA序列。 non-processed pseudogene 又称为复制型假基因，是通过基因组DNA复制或者不平衡交换产生的,多位于其同源功能基因的附近。 processed pseudogene 又称反转座假基因，来源于反转座事件，由mRNA反转录成cDNA，然后整合到基因组中。第五节案例分析：黄瓜基因组的注释一、蛋白质编码基因的注释（一）基于证据的基因注释 1、转录物比对黄瓜基因组使用的转录物数据库有：黄瓜EST和mRNA（NCBI下载）、甜瓜EST（MELOGEN数据库）和TIGR植物转录数据库。 cDNA、EST比对软件PASA和AAT-gap2 2、蛋白质比对蛋白质数据来自UniProt数据库比对软件：AAT-nap和Genewise （二）构建基因预测训练集基因预测训练集的构建对于从头开始基因预测及EVM 中权重的训练都是至关重要的。（三）从头开始的基因预测从头开始基因预测软件——BGF、GlimmerHMM、SNAP和GENSCAN （四）EVM基因预测自动整合系统（五）基因功能注释 1、寻找同源基因使用BLASTp在UniProt数据库中进行相似性搜索同源基因。 2、结构域和GO