福建农林大学生信息学复习材料.docVIP

  • 9
  • 0
  • 约 5页
  • 2016-10-14 发布于贵州
  • 举报
福建农林大学生信息学复习材料

概念 生物信息学 狭义:分子生物信息学,用信息技术存储、分析基因组、蛋白质组序列。 广义:指生物科学与信息科学与计算机科学、物理学、化学交汇融合的交叉学科。 信息:指能够消除人们不确定性的东西 。信息可以计算 Score:衡量匹配结果的质量,是相对的(与选取的计分依据有关),越高越好 E值:expectation value 评估相似性,是绝对的,越低越好 P值:P 0 表示越显著结果越可信, P ∞ 结果随机产生的可能性越大) 是指获得至少与两条无关序列间的偶然相似性一样高的分值的概率,低P值表明重要的匹配,这些匹配可能会有生物学意义 重复序列:真核生物的基因组中具有多数反复存在的DNA 顺序组成(一般不参与编码) 用Repeatmasker软件查找重复序列 序列谱:由多序列对比结果的全部信息构造的序列特征表,表中列出每一个位点氨基酸残基的替代.插入,缺失等情况 双序列比对:通过一定的算法对两个DNA或蛋白质的序列进行比较,找出两者之间最大相似性的方法。 工具是用程序来编写完成算法。 记分矩阵:为了反映两个序列比对结果而预先设定的分值矩阵。 取代矩阵:PAM、BLOSUM 稀疏矩阵:只有相同的为1,其余的为0,大多数矩阵单元的值为0。 DP(动态规划):按某种条件舍去那些不可能得到最有结果的局部解。 全局比对:对给定序列全长进行比较的方式,在待比较两个序列中引入间隔,使得对序列的全场都得到比较。 局部比对:对序列进行比较时,更注重局域的最佳匹配 比对工具:Blast、FASTA、Smith-waterman BLAST (Basic Local Alignment Search Tool) ORF:一个起始密码子和终止密码子之间的序列称为开放阅读框。 生物信息学研究内容分为哪三个部分?四个分支 核酸与基因组信息学: (1)测序与拼接 (2)基因识别与注释 (3)SNP(单核苷酸多态性)分析 (4)非编码区信息分析(5)比较基因组学 蛋白质组信息学: (1)蛋白质结构模拟 (2)蛋白质功能预测 (3)基因表达到蛋白质产物信息分析 代谢调控网络 生物进化分析 数据库、算法、算法工具分析生物学数据 生物信息学中两种最基本研究方法?主要的不同点 模式识别(数据)---同原序列、异源序列 结构模拟预测(计算)----结构:chou.Fasman;;物理化学;算法 工具 计算机里的专业术语 TCP----传输控制协议 IP - - -互联网协议 DNS-----域名服务器 LAN----局域网 WAN----广域网 http---超文本传输协议 ftp---文件传输协议 Telnet----在UNIX平台上远程连接间的协议 DNA数据库的类型 常规数据库:从全基因组单基因序列 特定数据库:模式生物基因组数据库;另一类则与特殊党的测序技术有关 最主要三个DNA数据库:EMBL、Genbank、DDBJ 数据库的搜索方法、各自的特点 GenBank----Entrez(集成检索系统) EMBL------SRS (序列检索系统) Entrez特点: ①使用简便,把不同类型的DB有机的结合在一起,通过超文本链接,用户可以从一个数据库直接转入另一数据库 ② 数据库和应用程序结合在一起。 EBI的SRS系统 SRS可以将不同文本格式的数据库真和成为统一的模式。 Entrez集成了哪些数据库 PubMed:生物医学文献 核苷酸序列数据库(Genbank) 蛋白质序列数据库 Structure:三维大分子结构 Genome:全基因组 PopSet:人口研究的数据集 OMIM:在线人类孟德尔遗传 UniSTS:标记和映射数据 GenBank EMBL 之间对应关系及一条记录的含义 GenBank :locus definition accession version title EMBL : ID DE AC SV RT 序列名称 序列简单说明 序列编号 序列版本号 题目 GenBank: keywords source organism reference authors EMBL: KW OS OC RN RA 关键词 序列来源物种名称 种属 相关文献

文档评论(0)

1亿VIP精品文档

相关文档