生物信息学bioinformatics(近完整版)MicrosoftWord文档1.docVIP

  • 34
  • 0
  • 约2.35万字
  • 约 13页
  • 2017-08-11 发布于重庆
  • 举报

生物信息学bioinformatics(近完整版)MicrosoftWord文档1.doc

生物信息学bioinformatics(近完整版)MicrosoftWord文档1

一.什么是生物信息学? Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. ( 它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。) (The U.S. Human Genome Project: The First Five Years FY 1991-1995, by NIH and DOE) 生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。 生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是本世纪自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。 How to find the coding regions in rude DNA sequence? By signals or By contents Among the types of functional sites in genomic DNA that researchers have sought to recognize are splice sites, start and stop codons, branch points, promoters and terminators of transcription, polyadenylation sites, ribosomal binding sites, topoisomerase II binding sites, topoisomerase I cleavage sites, and various transcription factor binding sites. Local sites such as these are called signals and methods for detecting them may be called signal sensors. 二.新基因和新SNPs的发现与鉴定 大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组 (约1300万bp) 所包含的 6千多个基因,大约 60% 是通过信息分析得到的。 、利用 EST( Expression Sequence Tag) 数据库 (dbEST) 发现新基因和新SNPs 国际上现已出现了几个基于EST的基因索引如UniGene (/pub/schuler/ unigene) , Merck-Gene Index (/est/esthmpg.html ) , GenExpress-index ( ) ,这些基因索引数据库(即二次数据库)构建了基因框架,极大地方便了相关研究者。 超大规模计算 b)、从基因组 DNA序列中预测新ORF 两者区别:前者是利用EST数据库进行片段的拼接与组装,而后者是利用基因组数据库的基因序列进行识别、预测, 三.基因电脑克隆 基因电脑克隆的实质: 以一个序列片段为线索, 通过它和整个数据库的比较, 还原出全序列原貌。 原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。 可行性:到目前为止, 公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。 嵌合体cDNA是指来源于不同基因的序列,由于偶然因素被组装在一起形成的Contig。我们构建的神经网络能探测组装过程形成的嵌合体。 EST ①利用 EST( Expression Sequence Tag) 数据库 (dbEST) 发现新基因和新SNPs EST数据库质量相对较低,就象许多文献报道,发现了许多内含子,克隆载体,多酶切点,ALU以及3’、5’非翻译序列(统称污染序列,也称载体序列或非insert序列)被包含在EST数据库中,这使得EST序列分析复杂化。因此在进行Contig电脑组装之前,需要探测并去除EST数据库中的污染序列。为探测并去除EST数据库中的污染序列,必须建立载体库,

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档