- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 卷 第 期
天津科技大学学报. . 年』.撇删 一妻,差。』 ~喜 ㈨ 汀垂唧 脚~
高等真核生物基因组 边界确定中的对称性
崔家峰
一一一~一一 一
天津科技大学珲学院,天津摘 要:高等真核生物基因组的结构与许多重要的生物学特征相关,而对其边界的确定则是结构
一矾一一一一一~一一 ~沁
分析的重点,同时也是难点.针对基于 曲线的累积 轮廓图法、基于熵的递归分段算法以及基于二次散
度的分段算法三种典型的应用,分析出其分段依据本质上是对于基因组序列求取碱基对换对称性的对称中心.基于此
结果,在寻找 结构分析度量时,只要度量函数满足一定对换对称性要求,即可达到殊途同归的目的.
关键词:真核生物;基凶组;; 曲线; 熵
中图分类号: . 文献标志码: 文章编号: ?? ~一 一一一一 ?姆一..~~ 一一一一~一一一一~一一一一一一~一一 ~~~ ?, , ,
一一~~~~
一一.一~~~
随着 年对人类伞基因组测序的完成?,越含量% , %≤ 含量/, 和来越多的生物全基因组数据以及各种组学技术把生含量≥ % . 结构很早就被发现,然而
至今关于它的诸多问题仍然在激烈地讨论研究
物学带人了系统科学时代.哺乳动物基因组最重要
中.一般认为, 结构与许多重要的生物学特
的特征之一就是它的 含量在大尺度上的变化,这
些变化的尺度从几十万个到几百万个碱基对不等,这 征相关,比如:基因密度、基因长度、密码子使用、重
复元件、重组频率以及复制开关等 .
就是所谓的基因组的结构.这些碱基组成
的变化影响到序列的编码区和非编码区,也反映了基
因组结构的基 特征.哺乳动物基因组的 结结构研究方法
构是在世纪年代中期对牛的基因组做密度梯
度离心实验时揭示的 .根据的分析结 研究 结构最简单最直接的 法就是滑
动窗口 刚,即在每一个窗口内计算的含量,然
果,有 个 家族:其中两个 含量较低的
家族是 含量% 和 %≤ 含量 后再根据某些判据断定局部含量是否有显著变% ;另外 个是含量较高的家族 %≤ 化.但是这种方法有一个最致命的缺点,就是窗 的
收稿日期:? ? ;修回日期:?
作者简介:栏家峰 一 ,男,天津人,副教授, 年 月 崔家峰:高等真核生物基因组 蕉主 丝
大小会影响到局部 含量以及其标准差,使得窗口
其中 :/ .是在区间 上 曲线的斜率.
很明显,若 曲线是上升曲线,则表明该区间
过大则抹杀了 含量变化的细节,而窗口过小又会/,●●一●?●\
产生很大的统计涨落.利用无窗技术研究 结含量降低;反之则表明该区间含量增加.若
构也产生了许多方法,如基于熵的递归分段曲线可以用直线拟合即 为常数 则说明 含
一
算法 、最小二乘优化分段法【刚、隐马尔科夫方法 、
量相对均匀,且该直线线性回归效果越明显,该段序
、、,●●/
基于 曲线的累积轮廓图法【?、基于二次散度 列含量越均匀.事实上, 曲线的意义在于,如
三
?
的分段算法 ”.其中,最小二乘优化分段法其实是一
果将整体含量的累积效果看作是背景压力,则 二/
种基于局部小窗大小为 万个碱基对的不重叠窗 ’曲线恰好从中去除了这个背景,从而更加充分地
一
口 的算法,但由于成功地避免了把富含的片段 表现出局部含量的均匀特征.于是, 曲线激增
过度划分,着眼于基因组序列的全局差异而不是局部 或锐减的地方将可能是局部含量发生突变的转
差异,获得了良好的效果. 折点,这个区域就有可能成为的边界.
值得注意的是,这样的区域恰好体现了强
氢键碱基 与弱氢键碱基 对换对称的特性,也
三种典型算法中的对称性
就是说,若将这两类碱基对换,则该区域依然可能是
。 基于 曲线的累积 轮廓图法 的边界位点.
曲线理论最早是由我国学者张春庭院士在
. 基于 熵的递归分段算法世纪 年代初提出的,并在很多方面得以应用.
该方法是一种分而治之的算法.对于由 个符号
考虑长度为Ⅳ的单链序列, , , , 分
符号集记为 : ,∞,?, ,例如对于核酸序列来
别表示该序列前 一,Ⅳ 个碱基中所含四种碱
说,, , , 组成的序列,设其长度为 ,计
基的数目,显然 .若以三个变量
算整条序列的熵 ,每一位点 处的左右
, , 分别表示前 个碱基中嘌呤碱基与嘧啶碱基
子序列的熵 ,和 ,即
之差、氨基碱基与酮基碱基之差、弱氢键碱基与强氢
一
键碱基之差,即
等 等一 :一一∑一 。。‘一 一 一。
∈ 、、一 , ∈卜 , , ,,。一,
其中,Ⅳ,, ,和Ⅳ, 分别表示整条序列中符号,出现
.
则 , , 可以对应于空间中的一个点 ,若把
次数、左侧及右侧子序列中符号,出现次数.为了刻
这一系列点 共Ⅳ 个点 连接起来
您可能关注的文档
最近下载
- 2025年医院卫生院基孔肯雅热防控工作方案(范本).docx
- 油田项目可行性报告.docx
- 全球及中国汽车电子液压线控系统(EHB)行业市场发展现状及发展前景研究报告2025-2028版.docx
- GB51060-2014 有色金属矿山水文地质勘探规范.docx VIP
- 中国甘宝素项目投资计划书.docx
- 中国阻燃改性塑料项目商业计划书.docx
- 万古霉素骨水泥链珠治疗慢性胫骨骨髓炎的手术配合.doc VIP
- 2025高中数学八大核心知识函数函数的值域(解析版).pdf VIP
- 新手小白学造价之六-电缆井工程量计算(组合件).pdf VIP
- 国家标准《高压临氢装置用奥氏体不锈钢无缝钢管(征求意见稿)》.pdf VIP
文档评论(0)