- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2 seq-comparison
Bio-sequence Comparison
Ying Xu (徐鹰)
Bio-molecules
? Three major types of bio-molecules in our cells
– nucleotides (DNA, RNA)
– proteins
– (poly)sugar
Bio-sequences
? The first two classes of bio-molecules have linear
structures so they can be represented as bio-sequences
– DNA sequences (consisting of four types of letters, A, C, G, T)
– RNA sequences (consisting of four types of letters, A, C, G, U)
– protein sequences (consisting of 20 types of letters)
ccgtacgtacgtagagtgctagtctagtcgtagcgccgtagtcgatcgtgtgggtagtagctgatatgatgcga
ggtaggggataggatagcaacagatgagcggatgctgagtgcagtggcatgcgatgtcgatgatagcggta
ggtagacttcgcgcataaagctgcgcgagatgattgcaaagragttagatgagctgatgctagaggtcagtg
actgatgatcgatgcatgcatggatgatgcagctgatcgatgtagatgcaataagtcgatgatcgatgatgatg
DNA sequence
SAANLEYLKNVLLQFIFLKPG-SERERLLPVINTMLQLSPEEKGKLAAV
NEKNMEYLKNVFVQFLKPESVPAERDQLVIVLQRVLHLSPKEVEILKAA
protein sequence
Bio-sequence Comparison
? Bio-sequence comparison is one of the most basic
problems in bioinformatics
? The basic computational problem is to determine if two
sequences are “similar”, partially similar and how similar
– AACGGTA versus ATCGGGT
DNA Sequence Comparison through
Sequence Alignment
? Defining DNA sequence (dis)similarity in terms of two parameters,
gaps and mismatches
? Example 1: AACG and AACG
? Example 2: AAGG and AACG
? Example 3: AACGGTATGC and ATCGGGTTGC
AACG
AACG
| | | |
AAGG
AACG
| | |
1 mismatch
AACG
ATCG
-
G
GT
GT
A
-
TGC
TGC
2 gaps
and 1
mismatch
DNA Sequence Alignment
? Best alignment: the alignment of two sequences with the
smallest possible number of mismatches and gaps
? Score: each aligned position: +2; each mismatch/ gap:
-1
AACG
AACG
| | | |
AAGG
AACG
| | |
AACG
ATCG
-
G
GT
GT
A
-
TGC
TGC
score = 8 score = 5 score = 13
Protein Sequence Alignment
? Protein sequence alignment: it is more complex to
measure protein sequence similarity than that of DNA
sequences
– protein sequence alignment: “degree” of similarity
? Each pair of amino acids
您可能关注的文档
- !=yTAx6=0,thenthematrixB=A!1AxyTAhasrankexactlyonelessthantherankofA. Abstract.LetA2Rmndeno.pdf
- $Q^2$ Dependence of the Bjorken Sum Rule.pdf
- (0,1)矩阵矩阵积和式的上下界.pdf
- !Prevention and treatment of protein energy wasting in chronic kidney disease patients.pdf
- (2003 OC) Frequency characteristics and dynamical behaviors of self-modulation in vertical-cavity su.pdf
- (1769-HSC Quick Refence)1769-in031_-en-p.pdf
- (2009-Science)Broadband ground-plane cloak.pdf
- (2011 M)Optimization of Multiple Traveling Salesmen Problem by a Novel Representation.pdf
- (2005-Paik)Comparison of Rifaximin and Lactulose for the Treatment of Hepatic EncephalopathyA Prosp.pdf
- (408分)2014年中央财经大学金融硕士(专业)考研经验分享.pdf
- 中国国家标准 GB/T 18233.4-2024信息技术 用户建筑群通用布缆 第4部分:住宅.pdf
- GB/T 18233.4-2024信息技术 用户建筑群通用布缆 第4部分:住宅.pdf
- GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计.pdf
- 《GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计》.pdf
- 中国国家标准 GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计.pdf
- GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置.pdf
- 《GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置》.pdf
- 中国国家标准 GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置.pdf
- GB/T 17889.4-2024梯子 第4部分:铰链梯.pdf
- 《GB/T 17889.4-2024梯子 第4部分:铰链梯》.pdf
文档评论(0)