基本序列算法.ppt

下载文档 降价啦

13
0
约 32页
2017-03-12 发布于天津
举报
版权申诉
保障服务

基本序列算法.ppt

1、本文档共32页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基本序列算法.ppt

* 计算机科学与生命科学（9）生物信息学基础 2013年秋季学期通选课程上课时间：周一 18:30点上课地点：软件园4区502d 主讲人：魏天迪讲义网址：/biocomp/ 分子进化美国人Linus Pauling于1964年提出了分子进化的理论。在分子水平上（DNA、RNA或蛋白质序列）而不是物种的外在特征，来研究进化过程。基于某一个特定的分子在不同物种中的序列差异来构建进化树。基本假设：（1） DNA、RNA或蛋白质序列包含了物种的所有进化史的信息；（2）分子钟理论：一个特定蛋白质的进化变异（不同碱基或氨基酸的个数）的速度在不同物种中是基本恒定的。即两个蛋白质的序列越相近，他们距离共同祖先就越近。 DNA序列 name CTCCTGACCTCAGGCGATTCGCCCGCCTCGGCCTCCCAAAGTGCTAGGATTACAGGCGTG AGCCACCACGCCCGGCCACACTAACTTTTTAAGAGCCAAGAGTTCGATCGGTAGCGGGAG CGGAGAGCGGACCCCAGAGAGCCCTGAGCAGCCCCACCACCACCGCTGGCCTAGCTACCA TCACACCCCGGGAGGAGCCGCAGCTGCCGCAGCCGGCCCCAGTCACCATCACCACAACCT TGAGCAGCGAGGCCGAGACCCAGCAGCCGCCCGCCGCTTGCCGCTCGCCGCCCCCCGCCC TCAGCGCCGGTGACACCACGCCCGGCACTACGGGCAGCGGCACAGGAAACGGTGGCCCGG GAGGCTTCACATCAGCAGCACCTGCCGGCGGGGACAAGAAGGTCATCGCAACGAAGGT 由4个不同的字母（碱基）排列组合而成。 FASTA格式：第一行：大于号加名称或其它注释；第二行以后：每行60个字母。蛋白质序列 name MHHHHHHSSGRENLYFQGKLPEPQFYAEPHTYEEPGRAGRSFTREIEASRIHIEKIIGSG DSGEVCYGRLRVPGQRDVPVAIKALKAGYTERQRRDFLSEASIMGQFDHPNIIRLEGVVT RGRLAMIVTEYMENGSLDTFLRTHDGQFTIMQLVGMLRGVGAGMRYLSDLGYVHRDLAAR NVLVDSNLVCKVSDFGLSRVLEDDPDAAXTTTGGKIPIRWTAPEAIAFRTFSSASDVWSF GVVMWEVLAYGERPYWNMTNRDVISSVEEGYRLPAPMGCPHALHQLMLDCWHKDRAQRPR FSQIVSVLDALIRSPESLRATATVS 由20个不同的字母（氨基酸）排列组合而成。 FASTA格式：第一行：大于号加名称或其它注释；第二行以后：每行60个字母。创建进化树 http://www.ebi.ac.uk/Tools/phylogeny/clustalw2_phylogeny/ 输入文件：sequences.txt 输出树：看三个与进化有关的短片基本序列算法 1. 精确子字符串搜索如：在一个DNA序列中搜索起始子ATG。在文本文件或WORD文件中直接用搜索功能。使用简单的计算机语言编程，如：PERL open (FH,dna.txt); @get=FH; close FH; $content=join(, @get); $n=0; $find=index($content, ATG, $n); while($find!=-1) { print $find\n; $n=$find+1; $find=index($content, ATG, $n); } 基本序列算法 2. 模式匹配搜索（正则表达式）如：在一个蛋白质序列中搜索LxxLxLxxNxL其中L代表L, I , F或V，x代表任意氨基酸。使用简单的计算机语言编程，如：PERL open (FH,protein.txt); @get=FH; close FH; $content=join(, @get); while($content=~/[LIFV]\w{2}[LIFV]\w{1}[LIFV]\w{2}N\w{1}[LIFV]/g) { print $\n; } 模式匹配搜索也可以实现上一张幻灯片里的精确子字符串搜索： while($content=~/ATG/g) { print $\n; } 基本序列算法 3. 后缀树序列：SDSDFSDFG 1: SDSDFSDFG$ 2: DSDFSDFG$ 3: SDFSDFG$ 4: DFSDFG$ 5: FSDFG$ 6: SDFG$ 7: