生物信息学作业提示.doc

下载文档 降价啦

3
0
约4.31千字
约 23页
2017-12-20 发布于河南
举报
版权申诉
保障服务

生物信息学作业提示.doc

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

生物信息学作业提示

1 简答生物信息学产生的历史必然性，以及生物信息学的研究内容。答：历史必然性：一方面，近50年，计算机科学和信息科学已经成为发展最为迅速的学科领域。计算机应用的普及，以及各类型数据库在各行各业中的广泛应用，给各个科学的发展带来了新的契机与活力，生物领域中计算机科学和信息学的应用也日益广泛，尤其是计算生物学有了较大的突破，这一切的成果都为生物信息学的产生和发展奠定了坚实的基础。另一方面，随着实验生物学的迅猛发展，尤其是DNA测序技术日益趋于成熟，测序速度和长度的大幅度提高，实施基因组计划已经具备了必需的实验手段。20年来，科学家完成了包括人类自身在内的约60种生物的全基因组测序，产生了大量的数据信息。而生物学数据的积累并不仅仅表现在DNA序列数据方面，与其同步的还有蛋白质一级结构数据。此外，迄今为止，已有一万多种蛋白质的空间结构以不同的分辨精度被测定。当科学家面对如潮水般涌来的数据时，数据的处理和分析就成为了科学家发现的主要“限速步骤”。数据的收集、分析和应用之间的额巨大反差，迫使全世界主要的研究机构全力转向对生物信息学技术的开发和研究。生物信息学的诞生和发展是应时所需，是历史的必然。研究内容：⑴获取各种生物的全基因组及其他数据⑵新基因发现⑶单核苷酸多态性分析⑷基因组中非编码区域的结构与功能⑸从基因组水平研究生物进化及其他遗传语言的可能⑹全基因组的比较研究⑺蛋白组学研究⑻基因功能预测⑼新药设计⑽遗传疾病的研究以及关键基因鉴定⑾生物芯片。 2、通过一个具体实例的分析，说明利用生物信息学进行DNA序列分析鉴定的策略。（1）进入NCBI网站点击“Map Viewer” 在search：的下拉菜单中选中homo Sapiens 点击Go 进入以下界面点击 “ ” 进入以下界面再点击 Download/View sequence/Evidence 出现下界面再点击NT_167200.1 后面的 display 再出现的界面中点击 “Send” Complete Record file 选FASTA格式 Create File 如下图下载并保存为“Homo sapiens chromosome Y genomic contig, GRCh37.p2 reference primary assembly(NT_167200.1).fasta”。（2）打开网站 /cgi-bin/WEBRepeatMasker, 将以上序列作为输入序列，找出非编码区，即看其重复序列。如下：点击结果如下图由上面的summary 可知本段序列全长为86563bp 其中GC含量54.62% 而且有153段高度重复序列其长度为39122bp占全长的45.19% 查看“masked File”结果如下：选取其中一段没有被N替换的序列如下对选取的序列进行载体污染分析打开vecscreen将序列粘贴在其中删去所有的N run vecscreen view report 后结果如下由上图知本小段序列无载体污染。在对这一小段序列做ORF 分析：先打开ORF Finder网页如下，将选取的小段序列粘贴在框中 orfFind 结果如下: 选取至少为300bp的开放阅读框架 Redraw 选取 -2 的一条点击 Accept view 同时对该段氨基酸序列做blast分析结果如下：对图进行分析，最上面的红线代表所搜索的未知序列，已带上核苷酸数目的标尺，在标尺下有不同长度和颜色的线，每一条线代表数据库中的匹配序列，不同的颜色代表不同的匹配打分，序列的相似性一目了然。当鼠标在不同的击中序列上移动时，图上的小窗口中将显示该序列的名称，匹配打分和E值。这里面E值是一个非常重要的值。它是科学计数法的符号。它实际说明找到与搜索序列相匹配的其他序列的几率。E值越接近零，越不可能找到其他的匹配序列，其背后的含义就是E值越小，匹配度越好。在未知序列下只有一条蓝色的线条，表明比对后与数据库中的序列相似度较低。其E值为0.15表明匹配度不高。结果为有点类似于家犬的拓扑异构酶的核苷酸序列。 3、通过一个具体实例的分析，说明利用生物信息学进行蛋白质结构研究的策略，要求最终得到蛋白质3D建模结果。（1）下载人的红色面粉甲虫（Tribolium castaneum (red flour beetle) ）的一个逆转录酶的催化亚基的氨基酸序列，用fasta格式保存如下： gi|197305144|pdb|3DU6|B Chain B, Structure Of The Catalytic Subunit Of Tel