- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《生物信息学》第三章:序列比较(第一部分)
认识序列
这一章我们来看生物信息学分析的一个重要内容:序列比较。无论你是研究核酸的还是
蛋白质的,无论你是搞测序的还是搞结构的,甚至是编程的,都逃不掉序列的比较。
那什么是序列呢?序列的英文名字是 sequence,这个单词一定要记住。那序列长什么样
子呢?s就是一条序列:s=abcdefghijklmnopqrstuvwxyz。看了这个例子,学计算机
的同学可能要笑了:“这不就是个字符串吗?我们管这个叫 string”。没错,序列就是字符串,
由字符穿成的串。通常用 s 代表序列 s 的第 i个字符,比如 s 是 s 的第 4 个字符,也就
i 4
是 d。当然你的字符串是从 0 位开始计数还是从 1 位开始,自己根据需要定!还有,习惯上
用 s代表 s的子序列。这些都是大家上计算机课已经熟知的了。
我们这里研究的序列主要是指蛋白质序列和核酸序列。蛋白质序列是由 20 个不同的字
母,也就是 20 种不同的氨基酸排列组合而成。核酸序列是由 4 种不同的字母,也就是 4 种
不同的碱基排列组合而成。核酸序列又分为 DNA 序列和 RNA 序列。
生物序列有自己的书写格式,而且格式很多。不同的处理软件会用到不同的格式,但是
最常用的,大多数软件都识别的格式是 FASTA 格式。这个格式在第二章已经介绍过了,这
里再复习一下。FASTA 格式,第一行是一个大于号“”开头,后面紧接注释信息,比如序
列的名字,编号等。因为前面有大于号,序列分析软件会自动识别这是一条序列的开始,且
这一行是注释而不是序列。从第二行开始就是纯序列部分,除了序列什么都不要写。最早定
义 60 个字母一行,现在这个规定不重要了,经常见到的也有 80 个一行的,或者不分行,一
行写下来的,根据实际需要自己决定!再次强调,一定要记住这个 FASTA 格式!后面的章
节里会经常使用这个格式的序列。而且,记住是 FASTA,不是 PASTA。PASTA 是面条。
文档评论(0)