- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DNA序列的分类和比对
摘要
问题一:利用MATLAB对24个DNA序列进行两两对比,将第i个与i后面的所有序列进行比较(i=1,2......24),筛选出相似度85%的比对序列分为同一类。
问题二:为了从题目中的24个碱基对的DNA序列中找出含有52个碱基对的新序列CTACCGCCTCGGAAACGGCGTGTGTGGAATTGTGGCATTAAATTCTTTCACT的进化来源,本文用了递推序列比对法,利用MATLAB软件,将新序列与24个DNA序列化为矩阵形式,将新序列从左到右以单位1的间隔移动,每移动一次,就将重叠部分的碱基比对一次。最后找出相似度最高的DNA序列。
关键词:序列比对 MATLAB 子序列 矩阵 相似度
一、问题重述
下面的24个DNA序列(附录一)是来自不同物种的一个基因片段,请将它们分类。另外,如果有一个新的序列
“CTACCGCCTCGGAAACGGCGTGTGTGGAATTGTGGCATTAAATTCTTTCACT”
请判断它最可能是哪个序列的一部分进化来的。
问题分析
问题一:利用MATLAB对24个DNA序列进行两两对比,将第i个与i后面的所有序列进行比较(i=1,2......24),筛选出相似度较高的序列分为同一物质。利用MATLAB设计程序,将24个DNA序列两两比较:先用与进行比较,再用与比较,以此类推,直到比对完。
问题二:将所有序列用一维矩阵形式表示,由于新序列只有52个碱基对,故对DNA序列进行分割后,相减得到一维矩阵。一维矩阵里的元素中,0代表重叠部分。其他不为0的元素均代表不重叠部分。根据元素0的分布,很容易可以看出相同碱基对的连续性。选择标准:若两个0相邻则附值1,间隔1赋值0.5^1,间隔2赋值0.5^2,以此类推。直到间隔数大于5时,则将它剔除。以此标准将各个赋值相加。最后比较相似度(S=L/52*100%)大小得出结论。
三、问题假设
假设一:所有碱基对都准确无误;
假设二:不考虑碱基序列的非编码区和编码区的区别;
假设三:将DNA序列中除A、T、G、C外的碱基进行转化,对结果没有影响
四、符号说明
M
新序列矩阵
第i个DNA序列
J
重叠部分相减得到的矩阵
S
相似度
L
连续性程度
模型的建立与求解
5.1 模型一
5.1.1 模型的建立
1、利用MATLAB设计程序,将24个DNA序列两两比对:先用与进行比对,再用与比对,以此类推,直到比对完。
2、比对方法
举例子:新序列CAT;已知序列ATTGCATCCGT
比对:
A
T
G
C
T
A
T
1
C
T
A
2
C
T
A
3
C
T
A
4
C
T
A
5
C
T
A
3、相同碱基判断方法:按以上方法一一比对,将重叠部分相减得矩阵J。提取出含0元素最多的矩阵,再用这个矩阵中0元素的个数除以两个比对序列中较短的碱基个数,从而的到相似度。
2、 计算出各个比对的相似度,提取出相似度大于等于85%的比对,定义为同类DNA序列。
5.1.2 模型一的求解
1、利用MATLAB(程序一)得到,各个比对的相似度为:
1
2
3
4
5
6
7
8
9
10
11
12
1
1
2
0.4236
1
3
0.2609
0.4481
1
4
0.4386
0.33
0.5043
1
5
0.4213
0.6037
0.3858
0.6143
1
6
0.4232
0.3213
0.5595
0.4677
0.4749
1
7
0.4302
0.2752
0.5769
0.6786
0.4544
0.3113
1
8
0.2756
0.2795
0.5057
0.4171
0.3054
0.4878
0.453
1
9
0.4205
0.2948
0.3121
0.3266
0.4436
0.3035
0.3107
0.3136
1
10
0.4136
0.3205
0.4963
0.5199
0.4668
0.4712
0.4786
0.4756
0.3885
1
11
0.3806
0.6614
0.2835
0.4386
0.3376
0.6055
0.2991
0.2855
0.4523
0.4948
1
12
0.3132
0.6614
0.2835
0.2843
0.2894
0.2812
0.2991
0.2855
0.4523
0.4948
1
1
13
0.2879
0.2968
0.2821
0.2814
0.2794
0.274
0.2835
0.2813
0.4494
0.3161
0.6144
0.6144
14
0.361
0.6009
0.2835
0.3614
0.3433
0.6069
0.2835
0.2855
0.
文档评论(0)