启动子识别研究进展.docxVIP

下载本文档

12
0
约1万字
约 10页
2023-09-16 发布于广东
举报
版权申诉

启动子识别研究进展.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

启动子识别研究进展 0 按前识别法进行识别随着更多原始生物矩阵的建立，阐明遗传因素之间的相互作用和关系变得可能。启动子作为RNA聚合酶结合的靶序列，对转录起始有调节和控制作用，决定着基因表达过程是否开始以及在什么条件下开始。因此启动子的识别与分析是表达调控研究的前提和基础。而在当前的原核基因组序列数据中，与启动子相关的可利用注释信息还比较匮乏，迫切需要高精度的计算机识别方法作为传统实验标注方法的补充。相关研究表明，绝大多数的原核启动子位于转录起始位点（transcription start site,TSS）上游200 bp至下游100 bp的范围内，其核心区域一般从TSS上游60 bp处延伸到下游20 bp处。启动子区域的共同特征是序列组成有较强的A/T偏好，并含有若干短的保守模式（motif）片段。原核RNA聚合酶利用σ因子识别启动子，因此可根据σ因子把启动子分成功能不同的若干类。例如在大肠杆菌中，σ70因子所识别的σ70启动子可指导生命活动中绝大多数基因的转录，而其它的σ因子启动子只在特定条件下才会发挥作用。不同种类的启动子具有启动子的共同特征，只是保守模式的具体形式和间隔距离有所不同。对于σ70启动子，最典型的保守模式有：-10区模式（-10 motif）、-35区模式（-35 motif）和TSS。-10区模式和-35区模式以它们与TSS的相对位置而得名，对应的一致序列分别为：TATAAT和TTGACA。而TSS通常是嘌呤碱基（A或G）。另外，-10区和-35区模式的间隔距离大多为16～18 bp，这一距离使两个模式保持在双螺旋的同一侧，有利于与聚合酶分子相结合。上述具有代表性的特征使大肠杆菌σ70启动子成为原核启动子识别的主要研究对象。根据所利用的特征，已有的原核启动子识别方法可分成两类：一类是基于组成（content）的方法，常见的有惩罚词频法（penalized frequency distribution,PFD）、字典模型法等等。这类方法主要利用启动子序列的全局特征信息，例如碱基组成偏好等等，其优点是可用于没有启动子注释信息的情况，适合对未知基因组序列进行分析。但由于只利用了特征的平均分布，难以给出精确的预测位置，所以识别正确率比较低。另一类是基于信号（signal）的方法，通过发现启动子区域内的保守模式片段等局部特征信号来进行识别。模式内允许一定程度的碱基错配，各模式的间距也可以变化，对它们进行描述和定位的常用方法有位置权重矩阵（position weight matrix,PWM）、人工神经网络（artificial neural network,ANN）、隐马尔可夫模型（hidden Markov model,HMM）、自动模式发现（automatic motif discovery）等等。由于单一的保守模式片段比较短，为了提高信号特异性，又出现了基于复合模式（composite motif）发现的MITRA等方法。进一步的考虑是将模式发现得到的特征信号作为下一层识别模型的输入，通过整合所有特征来做出最终的识别。基于这种分层思想的方法有PWM与偏序覆盖函数（partial order cover function）结合、比对核（sequence alignment kernel）与支持向量机（support vector machine,SVM）结合的方法等等。分层的方法综合利用了各种特征，并寻求特定准则下的最优决策，在一定程度上提高了识别率。当训练负集为编码区序列时，sequence alignment kernel与SVM结合的方法识别正确率达到了81.4%，是已知方法中最高的。然而，现有方法的识别正确率依然偏低。除了特征本身所固有的微弱多变因素，对启动子的认识不够深入、特征信息利用得不够充分是造成这种情况的主要原因之一。最近的实验发现，大肠杆菌σ70启动子区域存在一些新的保守模式，如-10区延伸模式（extended-10 motif）、UP元件（UP element）等等。与典型特征相比，它们的保守性更弱一些。已有的识别模型还没有利用这些特征。另外，在实际的转录起始过程中，启动子序列还需要形成一定的局部空间构象，并在多种转录因子的辅助下，才能被RNA聚合酶准确识别并与之相结合。它的双链结合稳定性也比较低，更容易被打开。这使得启动子序列与其它区域相比具有更高的局部弯曲度（curvature）和更低的双链稳定性（stability）。目前已有利用这些结构特征进行启动子识别的尝试，但实际的效果不能令人满意。由此可知，启动子序列的组成特征、信号特征、结构特征在单独使用时均不能提供启动子的全部信息，只有将这三类特征进行合理融合，才能最大限度地表征启动子的本质特性，为识别提供帮助。识别方法的合