中科院生物信息学题目整理.docx

下载文档 降价啦

14
0
约6.17千字
约 9页
2017-03-26 发布于重庆
举报
版权申诉
保障服务

中科院生物信息学题目整理.docx

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中科院生物信息学题目整理

生物信息学题目整理：陈润生：一、什么是生物信息学？你怎么理解它的含义？Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. 1、生物信息学是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。2、生物信息学是把基因组DNA序列信息分析作为源头，破译隐藏在DNA序列中的遗传语言，特别是非编码区的实质；同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测；其本质是识别基因信号。3、生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。对生物信息学理解的实例：怎样从新测得的DNA序列中找到编码区？非编码区与编码区的差别是什么？非编码区有什么具体功能？RNAi现象对于细胞来说有着很重要的意义，包括基因表达的调控等等，那么都有哪些具体机制可以诱导正常细胞产生RNAi现象？SARS病毒的比较基因组研究；治疗SARS的RNAi设计；SARS蛋白的结构预测和模拟。怎么理解：生物信息学是把基因组DNA序列信息分析作为源头，找到基因组序列中代表蛋白质和RNA基因的编码区；同时，阐明基因组中大量存在的非编码区的信息实质，破译隐藏在DNA序列中的遗传语言规律；在此基础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据，从而认识代谢、发育、分化、进化的规律。其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测，并将此类信息与生物体和生命过程的生理生化信息结合，阐明其分子机理，最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。二、发现新基因的两种方法是什么？算法的本质是？大部分新基因是靠理论方法预测出来的。1、利用NCBI中EST( Expression Sequence Tag) 数据库 (dbEST) 发现新基因和新SNPs。国际上现已出现了几个基于EST的基因索引如UniGene, Merck-Gene, GenExpress-index 数据来源于大量的序列小片段，EST较短，故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用SiClone策略主要步骤：构建数据库；将序列纯化格式标准化；从种子库中取序列和大库序列比对；延长种子序列，至不能再延长；放入contig库（1）构建若干数据库：总的纯化的EST数据库、种子数据库、载体数据库、杂质、引物数据库、蛋白数据库、cDNA数据库；（2）用所用种子数据库和杂质、引物数据库及载体数据库比对，去除杂质；（3）用种子和纯化的EST数据库比对；（4）用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较，判断是否为已有序列，再利用该大片段与纯化的EST数据库比对。重复以上步骤，直到序列不能再延伸；（5）判断是否为全长cDNA序列。2、从大规模基因组测序得到的数据出发，经过基因识别发现新基因：利用大规模拼接好的基因组，使用不同数据方法，进行标识查找，并将找到的可能的新基因同数据库中已有的基因比对，从而确定是否为新基因。可分为（1）基于信号，如剪切位点、序列中的promoter与terminator（2）基于组分，即基因家族、特殊序列间比较，complexity analysis，neutral network其本质是: : 以一个序列片段为线索, 通过它和整个数据库的比较, 还原出全序列原貌。当测序获得一条EST序列时，它来自哪一个基因的哪个区域是未知的(随机的)，所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象，就能找出属于同一个基因的所有EST序列，进而将它们拼接成和完整基因相对应的全长cDNA序列。三、研究生物进化的步骤有哪些，当前面临的困难是什么？如何解决？1、构建系统进化树。主要步骤如下：（1）序列相似性比较。可以找到和目标序列相似的序列，但无法确定序列间的同源关系。就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等；（2）序列同源性分析。是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等