基于加权贝叶斯分类器人类启动子辨识方法.pdfVIP

基于加权贝叶斯分类器人类启动子辨识方法.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第15卷第4期 电路与系统学报 V01.15No.4 2010年8月 JOURNALOFCIRCUITSANDSYSTEMS August,2010 文章编号:1007-0249(2010)04—0033—05 基于加权贝叶斯分类器的人类启动子辨识方法· 郭烁1,一, 朱义胜1 (1.大连海事大学信息工程学院,辽宁大连116026;2.沈阳化工大学信息工程学院,辽宁沈阳110142) 摘要t基因启动子区域控制一个基因转录的起始。因此,真核启动子预测是DNA序列分析中最重要的问题, 也是非常困难的任务。用高斯混合模型(GMM)估计启动子中寡核苷酸位置密度并将其作为特征向量,是一种 有效的方法。然而混合度G通常都选的很大,模型训练需要大量的时间。由于每个寡核苷酸位置分布的不同,本文提 出用模糊聚类的方法分别确定每个寡核苷酸的最优混合度,提高了寡核苷酸位置分布的检测精度,并减少了计算 时间。接着,提出了一种基于最小二乘法的加权贝叶斯分类器算法,用于人类启动子的辨识,进一步提高了辨识 精度。仿真结果表明,本算法具有较高的预测效果。 关键词,启动子;寡核苷酸;模糊聚类;高斯混合模型;最小二乘法;加权贝叶斯分类器 中圈分类号·TN911.72文献标识码tA 1 引言 启动子作为RNA聚合酶结合的靶序列,对转录起始有调节和控制作用,直接决定着基因表达过 程是否开始以及在什么条件下开始。因此,启动子的预测与分析是调控网络研究的重要前提。由于后 基因组序列时代有大量的基因序列数据可以提供,使用可靠的计算工具来检测基因序列真核poly.II启 动子成为可能。但是启动子序列的多样性和复杂性成为计算启动子预测算法的挑战问题。虽然很多计 算启动子预测工具已经研究,但是性能还不是很好,这个问题仍然有待研究。 生物中,启动子指的是对基因转录起始有重要作用的序列,不像原核生物那么保守,并且启动子的序 列较多。寡核苷酸,是一类只有20个以下碱基对的短链核苷酸的总称。出现在启动子序列的统计次数 比非启动子序列多的寡核苷酸通常被认为是转录因子结合位点基序的一致序列。这些核苷酸的短序列 可以很好的描述启动子中的结合位点和保守序列。文献[1]应用位置权重矩阵或寡核苷酸出现的频率来 分析启动子序列。文献[2—4】分析寡核苷酸在启动子和非启动子中出现的频率来辨识启动子。 岛和第一位剪接位点等生物特征提高TSS的辨识精度。 出现在固定位置的一些寡核苷酸负责主要的调控和转录11 21。文献[13】分析了寡核苷酸出现的位置 分布密度,用高斯混合模型(GMM)建模,提取启动子的特征向量并作为贝叶斯分类器的输入,取得 了很好的效果。但是,当寡核苷酸的位置分布越偏离高斯分布时,所需要的模型混合度G就越大,才 能对特征空间描述的细致、精确,但这样需要大量的具有充分代表性的训练数据样本,而且建模时间 也较长。并且启动子序列结合位点的上下文对转录调控起到很大的作用,例如,两个相互作用的转录 41。 因子捆绑在很近的结合位点将导致转录活性变高或变低。这些影响已经编辑在COMPEL数据库中【l 所以各寡核苷酸对启动子的贡献是不一样的。 因此,本文针对以上问题,提出了改进算法。根据模糊聚类的方法分别确定每个寡核苷酸位置分 布密度的GMM最优混合度G,并对每个寡核苷酸分别建模。因此,每个寡核苷酸的GMM混合度G是不 ’收藕日期·2009—09—15修订日期:2009—12—25 基金项目·国家自然科学基金资助项目 电路与系统学报 第15卷 同的,这样就可以更精确描述每个寡核苷酸的位置分布密度,并且并不是所有的寡核苷酸的位置分布 密度均偏离高斯分布,实验证明,一些寡核苷酸的混合度G并不用取得很大,所以减少了GMM的建模 时间。将原DNA序列数据样本映射为GMM空间,即将每个寡核苷酸的位置密度作为特征向量。在新 的空间,特征向量之间可以看成是存在线性关系。将特征向量作为加权贝叶

文档评论(0)

july77 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档