用序列周期性指数寻找Alu序列编码方式.docVIP

用序列周期性指数寻找Alu序列编码方式.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用序列周期性指数寻找Alu序列编码方式.doc

用序列周期性指数寻找Alu序列编码方式 了一 生物物理第+三卷第二期一九九七年六月 ACTABIOPHYSICASINICAVo1.13No.2Jun.1997 用序列周期性指数寻找Alu序列编码方式 掰}7 ,(磊五五,』二,.) ^L^/ ,摘要, 将720条Alu序列组成的序列库分成左臂,右臂和中间序列三十子库应用z值算鲁对三个子 库作周期性分析,井与外显子,内舍子和随机序列作比较.结果袁明,Atu序列作为一种潜在的调控 赍滩.可能县有几联体鳊码.刺用本算鲁作棱酸序7,1周期性分析井研竞序劫骗码方式,有较好的准 确性,井且简便易行.. /;:…/.现.储者类基因组计划的开展,大规模测序所带来的巨量数据,对生物信息的处理提出了很 高的要求.我们知道,在人的3xl碱基对中,95%一97%是非编码序列,即所谓的Junk DNA.而对于生物信息学来说,这是一个亟待人们去探索的宝藏. 对DNA序列非编码区的研究,通常的做法是把非编码区分为不同的功能对应区(FES, FunctionallyEquivalantSequences).在灵长类动物基因组的非编码区中有一类大量存在的 组成成分一重复序列.其中Alu重复序列是一类重要的中等重复序列,属于短散置重复单元 (SINE,ShortInterspersedElement).在人类基因组中大约有50100万拷贝.如此巨大的 拷贝数,及Alu序列中的一些相对保守位点,使人们不满足于对Alu序列的自私基因的解释, 而猜想其潜在的分子调控功能. 我们从信息统计学的角度考虑,核酸序列中既有编码一些表达产物的区域(如编码蛋白 质,RNA的基因区),又具有许多复杂的调控区(如启动子,增强子等等),因此核酸的编码方式 不应是单一的,用语言学的话来讲,核酸的编码语言应该有很多方言.我们知道,外显子中存 在三联体编码,那么在非编码区显然不再采取三联体的编码方式,而非编码区有不同的功能 区,也不会采取同一种编码方式.对于Alu家族而言,不同成员之间既具有多形性,又具有相 当程度的保守均一性,有可能采取了相同或近似的编码方式.基于其大量拷贝,适于一些统计 方法寻找其中的可能编码. Z值(Z—Value)已被成功地用于寻找外显子周期性.我们将这种方法推广到非编码区,利 用Z值寻找Alu序列周期性.进而寻求其可能的编码方式. 1数据准备 我们从Genebank数据库(release850,October15,1994)中选取了灵长类的所有Alu 序列,并通过lnternet同选取新测出部分Alu序列,建立了Alu子序列库.通过对此子库中 Alu序列的长度统计发现(见图1),大部分Alu序列长度为300bp左右,此长度为A【u序列特 征长度为研究方便,我们选取了其中长度为260bp至366bp的Alu序列720条作为研究 对象. 244生物物理1997妊 I IJ_..... sequenceLengzh Fig.1LengthdistributingdiagramofAlu O Fig.2SDva[ue 基于Alu序列本身的特点,Alu由两条串级重复序列(130bp)组成,中间由一段数量不等的随 机序列连接.我们将所研究的每一条Alu序列分为三部分,左端130bp为左臂,右端130bp为 右臂,其余为中问序列.将左臂串接起来得到一个720×130=93600bp的左臂集台,同样得到 一 个右臂集台,中问连接段序列也串成一个中间序列集台.另外选取相应灵长类外显子和内 含子,同样串接起来作为对照集台. 2算法 在计算z值,D值之前,我们计算了序列的标准偏差值SD,以观察序列是否在碱基分布上 是不随机的. 2.1标准偏差 我们所采用的标准偏差定义如下: . 艟加.√(詈j 其中n为编码词长,共有4n个词的花样.Wt为序列中词的总数,Wi为第i种词的个数. 考虑到不同的起始位点的影响,对词长n我们取第一个到第n个位点分别作为起始位点,计算 n个sd值.再将这些sd值求取平均.得到SD. 其中sdi为以第i个碱基为起始位点根据(1)式求得的标准偏差sd值. 我们计算了4个参照样本的SD值,n从2到8.计算结果如图2. 2.2D值计算 D值计算方法,又称作不均一位点碱基频率方法(UnevenPositionalBaseFrequencies Method)…. 对每种可能的碱基i(_=A,G,C,T),我们计算N;(j为碱基i在词长为n的词中的位置), 也即在一个window中,碱基i出现在词的第i个位置的次数. 同时计算碱基i在n个位置的平均含量: 1 E,=÷乙N(2) 第2期用序列周期性指数寻找Alu序列编码方式245 则D值定义如下: D:).一NJ(3) i/ 2.3序列周期性 D值给出了序列对某一词长n所表现

文档评论(0)

zhangningclb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档