- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机技术在转录因子结合位点识别研究及应用
计算机技术在转录因子结合位点识别研究及应用 摘 要 在生物信息学中,录因子结合位点与转录因子相互作用调控基因的转录过程。对转录因子结合位点的识别,是生物信息学的核心问题之一,简称为模体识别。如何高效完成模体识别对理解调控转录机制,建立调控转录模式有着重要的意义。本文重点描述了对转录因子结合位点识别研究的历程、近年来业界普遍采用的三类模体识别的研究方法、以及对其中各类具有典型特种的多种主流模体识别算法做出分析,初步形成整体脉络,并对下一代转录因子结合位点识别问题提出了观点。 【关键词】转录因子结合位点 计算机技术 近年来随着基因组计划的执行,海量的基因序列原始数据被发现。为了阐述数据的生物意义,数学、计算机学等学科被广泛结合运用,在研究过程中决定基因在生命工程中意义的基因表达就成了生物信息学主要的研究课题之一。基因表达是指基因在生物体内的转录、剪接、翻译以及转变成有生命意义的蛋白质分子的过程。 其中转录调控是基因表达的关键步骤,调控基因转录是由转录因子通过特异性结合调控区域的DNA序列来完成的,转录因子结合位点是与转录因子结合的长度通常在5~20 bp范围内的短小DNA片断,一个转录因子往往同时调控若干个基因,而它在不同基因上的结合位点具有一定的保守性,但又不完全相同。对经过生物实验验证的已知位点进行分析可知,转录因子结合位点往往是在相关基因序列中具有保守性,可以表现出特定的模式,所以也被称作模体。与其它常见的序列模体信号相比,转录因子结合位点模体除了长度较短以外,其碱基组成也更加灵活,容许较多的变体。识别转录因子结合位点模体问题在业内通常简化成为模体识别。 解决模体识别问题,需要运用生物学、数学和计算机学等学科的综合研究成果,在数学和计算机学的作用下,模体识别可以形象的认为是在庞杂的复杂的背景信号中找到具有相对保守性的微小特征信号的模型。 而这类微小特征信号因为模体的片段较短,而较短的序列在规模较大基因组中重复出现的次数很多, 另外模体又现实存在一定的模体变体, 这使得背景中的噪音信号对所关注的信号有着很大的干扰,减少这种干扰就是模体识别问题的难点 1 模体的表示方法 在生物信息学领域,通常用三种模型来表现模体。分别是:一致序列(Consensus)模型、权值矩阵模型(Weight Matrix Model, WMM)、可视化模型。 1.1 一致序列(Consensus)模型 一致序列模型是指取各个模体实例中同一位置出现次数最多的碱基作为一致序列该位置的碱基,这样组成的序列就被称作一致序列。这样一致序列模型是对模体的一种大致性表示,一致序列模型的结果并不一定存在于被表示DNA序列中。以表1作为例子来说明: 1.2 权值矩阵模型 由一致序列模型表示的模体除了简单直观在精确性上与实际要求相差很远,随着算法的发展,人们发现用权值矩阵矩阵更能表现出模体的特性。 矩阵的行代表了不同的碱基,矩阵的列代表了碱基序列的位置。假设该矩阵为 W, 那么 W(i,j)表示第 i 个碱基在碱基位置 j 出现的概率。以上表为例可以得出矩阵W(4,5),如图1所示。 可以在权值矩阵模型下用似然函数来评价生物序列模体的保守程度。 1.3 可视化模型 logo模型是可视化模型的典型代表,它依据信息论用形象直观的图形方式来表示结合位点的特征。 在logo模型中,每个位上的值是所有在该位置上出现的碱基叠加生成,该位置上值的高度等于该位置上碱基出现的信息量之和,该位置上碱基的排列按照信息量的大小从上向下排列。例如我们把已在真实数据库公布的模体用logo模型表示,如图2。 logo模型可以用直观图形地表示出结合位点的保守度,以及碱基在具体位置上的分布和影响。 2 转录因子结合位点识别研究历程 根据转录因子结合位点在相关基因序列中的保守性,近年来人们开发了很多识别它们的算法。 较直观使用的研究主要是基于字串枚举的方法 ,其原理是:在给定的共表达基因上游区域中,模体序列的出现频率比其背景序列片段现的频率要高。因此,通过穷尽列举输入序列中所有可能的候选模体,计算出每个候选模体的实际现次数与其期望出现次数进行比较衡量,选择具有显著统计特性的候选模体。 其中1984年Helden等人提出的Oligo-analysis方法;1992年 Pesole等人提出的模式驱动列举(WordUp ) ;这两种方法虽然简单直观但有两个明显的不足:时间复杂度高、仅适用于模体较小的情况,同时不能允许模体出现变体。接着,Helden对Oligo-analysis进行了扩展,2000年提出了dyad-analysis算法。该方法对两端保守的模体识别率较高, 但当模体保守区域长度定义后,搜索到的模体不能有变化,两
文档评论(0)