国科大陈润生生物信息学开卷考试解决方案.docVIP

下载本文档

10
0
约4.16万字
约 43页
2016-08-25 发布于湖北
举报
版权申诉

国科大陈润生生物信息学开卷考试解决方案.doc

1、本文档共43页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一．什么是生物信息学？ Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. （它是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。） (The U.S. Human Genome Project: The First Five Years FY 1991-1995, by NIH and DOE) 生物信息学是把基因组DNA序列信息分析作为源头，破译隐藏在DNA序列中的遗传语言，特别是非编码区的实质；同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是本世纪自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。二、生物学研究内容（一）经典的研究内容---大规模基因组测序中的信息分析----拼接和注释大规模测序是基因组研究的最基本任务，它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。 1．How to find the coding regions in rude DNA sequence? By signals or By contents 基于信号或碱基组成 By signals 作为参考信息 Among the types of functional sites in genomic DNA that researchers have sought to recognize are splice sites, start and stop codons, branch points, promoters and terminators of transcription, polyadenylation sites, ribosomal binding sites, topoisomerase II binding sites, topoisomerase I cleavage sites, and various transcription factor binding sites. Local sites such as these are called signals and methods for detecting them may be called signal sensors. 第一、序列长度短，重复性大，假的比真的多百千倍，因而单独使用无法真正达到检测的目的。第二、信号模式不是唯一不变的，而是用概率来表示的。 By content 更多依赖于 I. Statistical method and Sequence Alignment Method eneven positional base frequence (D value) 编码区是三联体，将密码子翻译与天然蛋白的氨基酸序列进行比较（天然的蛋白质有固定的氨基酸比例）。这种方法产生三种可能的氨基酸序列，若其中有一个非常像氨基酸序列，则另外两个都非常不像，则非常像的那个便是；若三个都模糊像，则都不是。与数据库进行比对，这种方法发现不了新蛋白。 II. Sequence Analysis – Pairwise Alignment 双序列比对经典的双序列比对运用动态规划（DP）的形式，通过缓存亚问题的解决和重利用而不是重计算他们而解决一个最佳问题，运动DP的寻找两个长度为N的序列最佳排列将产生N2的亚问题。准确，但耗费计算机的资源。上述方法在序列很长时计算速度太慢，因此人们将之简化，发展处Heuristic schemes的方法。比较成熟的有FASTA和BLAST。这种方法搜寻短序列不插入间隔。 (序列比对（alignment）：为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。将两个或多个序列排列在一起，标明其相似之处。序列中可以插入间隔（通常用短横线“-”表示）。对应的相同或相似的符号（在核酸中是A, T（或U）, C, G，在蛋白质中是氨基酸残基的单字母表示）排列在同一列上。Neural network-神经网络--------------predicting the splicin