- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物信息学B复习要点
知识点:
1.生物信息学:生物信息学是一门(交叉)学科,它包含了生物信息的获取、处理、存储、分发、分析和解释在内的所有方面。他综合的应用(数学)、(计算机科学)和(生物学)的各种工具,来阐明和理解大量数据中包含的生物学意义。
2. 人类基因组计划 :(human genome project,HGP)
是一个国际合作项目,由美国/德国/法国/英国/日本和中国科学家共同参与。其旨在测定组成人类染色体(指单倍体)中所包含的30亿个核苷酸序列的碱基组成,从而绘制人类基因组图谱,辨识并呈现其上的所有基因及其序列,进而破译人类遗传信息。人类基因组计划是人类为了解自身的奥秘所迈出的重要一步,是继曼哈顿原子弹计划和阿波罗登月计划之后,人类科学史上的又一个伟大工程。
3. 一级数据库数据库: 直接来源于实验获得的原始数据,只经过简单的归类整理和注释。包括:基因组数据库,序列数据库(核酸和蛋白质)以及结构数据库。
4. 二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
5.公共序列数据库 :1988 年3个数据库达成协议,组成合作联合体。它们每天交换信息,并对数据库 DNA 序列记录的统一标准达成一致。每个机构负责收集来自不同地理分布的数据 (EMBL 负责欧洲, GenBank 负责美洲, DDBJ负责亚洲等) ,将所有信息汇总在一起,共同享有并向世界开放,故这 3 个数据库又被称为公共序列数据库。
6.主要核酸序列数据库: GenBank、EMBL、 DDBJ
7.主要蛋白质序列数据库:Swissprot, PIR
8. 蛋白质结构分类数据库包括:SCOP和CATH。
9.FASTA格式,又称Pearson 格式。特点:最常用、最简单的序列注释格式
命名规则:(理解即可)
1、以大于号“起始
2、 标题行( a single-line description) 位于文件的第一行,(中英均可)
3、 序列行随后,序列行中不允许有空间,每行文字不超 过80个字符
4、组成序列信息字符串的符号应为IUB/IUPAC(International Union Of Pure And Applied Chemistry)核苷酸或氨基酸的符号
5、核苷酸字符大小写均可,氨基酸字符应大写
6、-单个连字符表示一个空位 “gap”
7、序列中不允许有数字、不明确的核苷酸用N表示,氨基酸用X表示
8、 氨基酸序列中“*”表示终止
9、常保存为.txt文档
GBFF序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为3个部分:第一部分包含整个记录的信息(描述符);第二部分包含特征表,包含了注释这一记录的特性;第三 部分是核苷酸序列本身,以“//”结尾。
信息检索(informal retrieval):是将无序的数据有序化,形成信息集合,并根据需要从信息集合中提取特定信息的过程。
12. Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
13.PUBMUD: 是一个免费的生物医学文摘数据库,提供部分论文的摘要及指向全文的链接BLAST:“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的 缩写。BLAST 是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序。
17.E值:是随机产生一个比所得分值高的对位排列的概率,即分值可靠性的测度。 E值越(小), 所命中序列越可靠,越能反映序列之间真实的生物学意义。
18.低复杂度序列:指序列中包含的重复度高的区域,如poly(A)。BLAST搜索首先将低复杂度序列过滤,然后再进行搜索。
19.主要的BLAST程序: 基因组BLAST, 基本BLAST,特殊类型数据库的BLAST.
20.基本BALST:
21. GenBank中序列提交的工具为:BankIt 、Sequin。其中BankIt 为在线提交工具,Sequin为本地机生成要提交的序列,以邮件的形式发送至GenBank。
22. 生物进化又称有机体进化(organism evolution):指生物从共同祖先由低级到高级,由简单到复杂逐步分化演变的过程。
23. 现代生物进化理论的主要思想: 生物进化的单位是种群; 生物进化过程的三个环节⒈突变和基因重组产生进化的原材料; 2.自然选择决定生物进化方向;⒊隔离导致物种的形成
生物进化实质:种群基因频率的改变.
24.基因频率:在一个种群里,某一等位基因的数量就是这基因在这个种群里的频率。
25.基因型频率:在一个
文档评论(0)