用序列周期性指数寻找Alu序列编码方式.docVIP

下载本文档

16
0
约5.68千字
约 10页
2018-06-10 发布于江西
举报
版权申诉

用序列周期性指数寻找Alu序列编码方式.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

用序列周期性指数寻找Alu序列编码方式.doc

用序列周期性指数寻找Alu序列编码方式了一生物物理第+三卷第二期一九九七年六月 ACTABIOPHYSICASINICAVo1.13No.2Jun.1997 用序列周期性指数寻找Alu序列编码方式掰}7 ,(磊五五,』二,.) ^L^/ ,摘要, 将720条Alu序列组成的序列库分成左臂,右臂和中间序列三十子库应用z值算鲁对三个子库作周期性分析,井与外显子,内舍子和随机序列作比较.结果袁明,Atu序列作为一种潜在的调控赍滩.可能县有几联体鳊码.刺用本算鲁作棱酸序7,1周期性分析井研竞序劫骗码方式,有较好的准确性,井且简便易行.. /;:…/.现.储者类基因组计划的开展,大规模测序所带来的巨量数据,对生物信息的处理提出了很高的要求.我们知道,在人的3xl碱基对中,95%一97%是非编码序列,即所谓的Junk DNA.而对于生物信息学来说,这是一个亟待人们去探索的宝藏. 对DNA序列非编码区的研究,通常的做法是把非编码区分为不同的功能对应区(FES, FunctionallyEquivalantSequences).在灵长类动物基因组的非编码区中有一类大量存在的组成成分一重复序列.其中Alu重复序列是一类重要的中等重复序列,属于短散置重复单元 (SINE,ShortInterspersedElement).在人类基因组中大约有50100万拷贝.如此巨大的拷贝数,及Alu序列中的一些相对保守位点,使人们不满足于对Alu序列的自私基因的解释, 而猜想其潜在的分子调控功能. 我们从信息统计学的角度考虑,核酸序列中既有编码一些表达产物的区域(如编码蛋白质,RNA的基因区),又具有许多复杂的调控区(如启动子,增强子等等),因此核酸的编码方式不应是单一的,用语言学的话来讲,核酸的编码语言应该有很多方言.我们知道,外显子中存在三联体编码,那么在非编码区显然不再采取三联体的编码方式,而非编码区有不同的功能区,也不会采取同一种编码方式.对于Alu家族而言,不同成员之间既具有多形性,又具有相当程度的保守均一性,有可能采取了相同或近似的编码方式.基于其大量拷贝,适于一些统计方法寻找其中的可能编码. Z值(Z—Value)已被成功地用于寻找外显子周期性.我们将这种方法推广到非编码区,利用Z值寻找Alu序列周期性.进而寻求其可能的编码方式. 1数据准备我们从Genebank数据库(release850,October15,1994)中选取了灵长类的所有Alu 序列,并通过lnternet同选取新测出部分Alu序列,建立了Alu子序列库.通过对此子库中 Alu序列的长度统计发现(见图1),大部分Alu序列长度为300bp左右,此长度为A【u序列特征长度为研究方便,我们选取了其中长度为260bp至366bp的Alu序列720条作为研究对象. 244生物物理1997妊 I IJ_..... sequenceLengzh Fig.1LengthdistributingdiagramofAlu O Fig.2SDva[ue 基于Alu序列本身的特点,Alu由两条串级重复序列(130bp)组成,中间由一段数量不等的随机序列连接.我们将所研究的每一条Alu序列分为三部分,左端130bp为左臂,右端130bp为右臂,其余为中问序列.将左臂串接起来得到一个720×130=93600bp的左臂集台,同样得到一个右臂集台,中问连接段序列也串成一个中间序列集台.另外选取相应灵长类外显子和内含子,同样串接起来作为对照集台. 2算法在计算z值,D值之前,我们计算了序列的标准偏差值SD,以观察序列是否在碱基分布上是不随机的. 2.1标准偏差我们所采用的标准偏差定义如下: . 艟加.√(詈j 其中n为编码词长,共有4n个词的花样.Wt为序列中词的总数,Wi为第i种词的个数. 考虑到不同的起始位点的影响,对词长n我们取第一个到第n个位点分别作为起始位点,计算 n个sd值.再将这些sd值求取平均.得到SD. 其中sdi为以第i个碱基为起始位点根据(1)式求得的标准偏差sd值. 我们计算了4个参照样本的SD值,n从2到8.计算结果如图2. 2.2D值计算 D值计算方法,又称作不均一位点碱基频率方法(UnevenPositionalBaseFrequencies Method)…. 对每种可能的碱基i(_=A,G,C,T),我们计算N;(j为碱基i在词长为n的词中的位置), 也即在一个window中,碱基i出现在词的第i个位置的次数. 同时计算碱基i在n个位置的平均含量: 1 E,=÷乙N(2) 第2期用序列周期性指数寻找Alu序列编码方式245 则D值定义如下: D:).一NJ(3) i/ 2.3序列周期性 D值给出了序列对某一词长n所表现