- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用序列周期性指数寻找Alu序列编码方式.doc
用序列周期性指数寻找Alu序列编码方式
了一
生物物理第+三卷第二期一九九七年六月
ACTABIOPHYSICASINICAVo1.13No.2Jun.1997
用序列周期性指数寻找Alu序列编码方式
掰}7
,(磊五五,』二,.)
^L^/
,摘要,
将720条Alu序列组成的序列库分成左臂,右臂和中间序列三十子库应用z值算鲁对三个子
库作周期性分析,井与外显子,内舍子和随机序列作比较.结果袁明,Atu序列作为一种潜在的调控
赍滩.可能县有几联体鳊码.刺用本算鲁作棱酸序7,1周期性分析井研竞序劫骗码方式,有较好的准
确性,井且简便易行..
/;:…/.现.储者类基因组计划的开展,大规模测序所带来的巨量数据,对生物信息的处理提出了很
高的要求.我们知道,在人的3xl碱基对中,95%一97%是非编码序列,即所谓的Junk
DNA.而对于生物信息学来说,这是一个亟待人们去探索的宝藏.
对DNA序列非编码区的研究,通常的做法是把非编码区分为不同的功能对应区(FES,
FunctionallyEquivalantSequences).在灵长类动物基因组的非编码区中有一类大量存在的
组成成分一重复序列.其中Alu重复序列是一类重要的中等重复序列,属于短散置重复单元
(SINE,ShortInterspersedElement).在人类基因组中大约有50100万拷贝.如此巨大的
拷贝数,及Alu序列中的一些相对保守位点,使人们不满足于对Alu序列的自私基因的解释,
而猜想其潜在的分子调控功能.
我们从信息统计学的角度考虑,核酸序列中既有编码一些表达产物的区域(如编码蛋白
质,RNA的基因区),又具有许多复杂的调控区(如启动子,增强子等等),因此核酸的编码方式
不应是单一的,用语言学的话来讲,核酸的编码语言应该有很多方言.我们知道,外显子中存
在三联体编码,那么在非编码区显然不再采取三联体的编码方式,而非编码区有不同的功能
区,也不会采取同一种编码方式.对于Alu家族而言,不同成员之间既具有多形性,又具有相
当程度的保守均一性,有可能采取了相同或近似的编码方式.基于其大量拷贝,适于一些统计
方法寻找其中的可能编码.
Z值(Z—Value)已被成功地用于寻找外显子周期性.我们将这种方法推广到非编码区,利
用Z值寻找Alu序列周期性.进而寻求其可能的编码方式.
1数据准备
我们从Genebank数据库(release850,October15,1994)中选取了灵长类的所有Alu
序列,并通过lnternet同选取新测出部分Alu序列,建立了Alu子序列库.通过对此子库中
Alu序列的长度统计发现(见图1),大部分Alu序列长度为300bp左右,此长度为A【u序列特
征长度为研究方便,我们选取了其中长度为260bp至366bp的Alu序列720条作为研究
对象.
244生物物理1997妊
I
IJ_.....
sequenceLengzh
Fig.1LengthdistributingdiagramofAlu
O
Fig.2SDva[ue
基于Alu序列本身的特点,Alu由两条串级重复序列(130bp)组成,中间由一段数量不等的随
机序列连接.我们将所研究的每一条Alu序列分为三部分,左端130bp为左臂,右端130bp为
右臂,其余为中问序列.将左臂串接起来得到一个720×130=93600bp的左臂集台,同样得到
一
个右臂集台,中问连接段序列也串成一个中间序列集台.另外选取相应灵长类外显子和内
含子,同样串接起来作为对照集台.
2算法
在计算z值,D值之前,我们计算了序列的标准偏差值SD,以观察序列是否在碱基分布上
是不随机的.
2.1标准偏差
我们所采用的标准偏差定义如下:
.
艟加.√(詈j
其中n为编码词长,共有4n个词的花样.Wt为序列中词的总数,Wi为第i种词的个数.
考虑到不同的起始位点的影响,对词长n我们取第一个到第n个位点分别作为起始位点,计算
n个sd值.再将这些sd值求取平均.得到SD.
其中sdi为以第i个碱基为起始位点根据(1)式求得的标准偏差sd值.
我们计算了4个参照样本的SD值,n从2到8.计算结果如图2.
2.2D值计算
D值计算方法,又称作不均一位点碱基频率方法(UnevenPositionalBaseFrequencies
Method)….
对每种可能的碱基i(_=A,G,C,T),我们计算N;(j为碱基i在词长为n的词中的位置),
也即在一个window中,碱基i出现在词的第i个位置的次数.
同时计算碱基i在n个位置的平均含量:
1
E,=÷乙N(2)
第2期用序列周期性指数寻找Alu序列编码方式245
则D值定义如下:
D:).一NJ(3)
i/
2.3序列周期性
D值给出了序列对某一词长n所表现
文档评论(0)