中科院生物信息学期末考试复习题.pptx

下载文档 降价啦

23
0
约5.3千字
约 19页
2020-10-01 发布于广东
举报
版权申诉
保障服务

中科院生物信息学期末考试复习题.pptx

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中科院生物信息学期末考试复习题陈润生老师部分： 1.什么是生物信息学，如何理解其含义？为什么在大规模测序研究中，生物信息学至关重要？答：生物信息学有三个方面的含义：生物信息学是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面，是基因组研究不可分割的部分。生物信息学是把基因组 DNA 序列信息分析作为源头，破译隐藏在 DNA 序列中的遗传语言，特别是非编码区的实质；同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测；其本???是识别基因信号。生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。生物信息学是把基因组 DNA 序列信息分析作为源头，找到基因组序列中代表蛋白质和 RNA 基因的编码区；同时阐明基因组中大量存在的非编码区的信息实质，破译隐藏在 DNA 序列中的遗传语言规律：在此基础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据，从而认识代谢、发育、分化、进化的规律。同时在发现了新基因信息之后，其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测，并将此类信息与生物体和生命过程中的生理生化信息结合，阐明其分子机制，最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。 2.如何利用数据库信息发现新基因，基本原理？答：利用数据库资源发现新基因，根据数据源不同，可分 2 种不同的查找方式：从大规模基因组测序得到的数据出发，经过基因识别发现新基因：（利用统计，神经网络，分维，复杂度，密码学，HMM，多序列比对等方法识别特殊序列，预测新 ORF。但因为基因组中编码区少，所以关键是“数据识别”问题。）利用大规模拼接好的基因组，使用不同数据方法，进行标识查找，并将找到的可能的新基因同数据库中已有的基因对比，从而确定是否为新基因。可分为：①基于信号，如剪切位点、序列中的启动子与终止子等。②基于组分，即基因家族、特殊序列间比较，Complexity analysis，Neural Network 利用EST 数据库发现新基因和新 SNPs：（归属于同一基因的EST 片断一定有 overlapping，通过 alignment 可组装成一完整的基因，但EST 片断太小，不存在数据来源，主要是拼接问题）数据来源于大量的序列小片段，EST 较短，故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用 SiClone 策略。其主要步骤有：构建数据库；将序列纯化格式标准化；从种子库中取序列和大库序列比对；延长种子序列，至不能再延长；放入contig 库 ①构建若干数据库：总的纯化的 EST 数据库，种子数据库，载体数据库，杂质、引物数据库，蛋白数据库，cDNA 数据库； ②用所用种子数据库和杂质、引物数据库及载体数据库比对，去除杂质； ③用种子和纯化的EST 数据库比对 ④用经过一次比对得到的长的片段和蛋白数据库、cDNA 数据库比较，判断是否为已有序列，再利用该大片段与纯化的EST 数据库比对，重复以上步骤，直到序列不能再延伸； ⑤判断是否为全长cDNA 序列。;（利用EST 数据库：原理：当测序获得一条 EST 序列时，它来自哪一个基因的哪个区域是未知的（随机的），所以属于同一个基因的不同 EST 序列之间常有交叠的区域。根据这种“交叠”现象，就能找出属于同一个基因的所有 EST 序列，进而将它们拼接成和完整基因相对应的全长 cDNA 序列。而到目前为止，公共 EST 数据库(dbEST)中已经收集到约 800 万条的人的EST 序列。估计这些序列已覆盖了人类全部基因的 95%以上，平均起来每个基因有 10 倍以上的覆盖率。） 3.用蛋白或核酸序列数据库研究生物演化的主要步骤是什么？当前的困难是什么，如何克服？（核酸或氨基酸序列进行进化研究要进行哪些计算步骤？当前遇到什么问题？怎样解决？）答：计算步骤，构建系统进化树，其主要步骤如下：序列相似性比较。就是将待研究序列与 DNA 或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有 BLAST、FASTA 等；序列同源性分析。是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL 等；构建系统进化树。根据序列同源性分析的结果，重建反映物种间进化关系的进化树。为