人类rna聚合酶ⅱ启动子辨认研究.pdfVIP

  • 21
  • 0
  • 约7.19万字
  • 约 63页
  • 2018-06-03 发布于贵州
  • 举报
人类rna聚合酶ⅱ启动子辨认研究

摘要 摘要 启动子的识别是基因识别的重要组成部分。对启动子区的认识,不仅有助 于实验室分析研究,而且还可以为人类认识全基因组功能、基因表达调控机制 以及人类疾病与启动子多态性或突变的关系提供很大的帮助。 本文旨在对人类RNA聚合酶(POL)II启动子数据进行识别分类并提高识 别的准确率。我们将创新的编码方法应用在人类启动子序列编码中,建立并使 用合适的共识模型,使用支持向量机(SVM)的方法对启动子数据进行分类并 提高了启动子识别的准确率。 首先,我们从真核生物启动子数据库(EPD)以及非启动子数据库中得到用 于分类研究的DNA启动子序列数据及非启动子序列数据。正、负数据集均分别 我们还从转录起始位点数据库(DBTSS)中得到了由实验得出的人类染色体启 动子数据,准备用于后续的研究。 然后,在对数据进行处理后(包括保证数据的非冗余性等),对碱基数据进 行编码、选择合适的参数及编码方法。这是本研究的重点和难点。根据采用编 码方式的不同,将之分为三步。 第一步,本文采用了基于知识的统计编码方法,并将此方法进一步扩展成 六种子编码方式,分别是:单碱基统计特征编码、相邻双碱基统计特征编码、 隔一位的双碱基统计特征编码、隔两位的双碱基统计特征编码、隔三位的

文档评论(0)

1亿VIP精品文档

相关文档