基于主成分分析法的人类启动子识别-控制科学与工程专业论文.docxVIP

基于主成分分析法的人类启动子识别-控制科学与工程专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
哈尔滨工业大学工学硕士学位论文 哈尔滨工业大学工学硕士学位论文 - - I - 摘 要 本论文运用主成分分析法对人类启动子序列进行特征提取,并建立人类 启动子识别模型对人类基因序列进行分析,获得较好实验结果。 启动子是位于结构基因 5’端转录起始点上游的一段 DNA 序列,它包含着 一些可以被转录因子识别出的结合域。 启动子就像“开关”,通过与转录因子的集合,决定了转录发生的时间和 地点。由于启动子区域临近转录起始点,所以寻找基因的起始位置可以通过 预测启动子区域来完成。启动子可以控制基因的“开”或者“关”,从而决定 了多细胞组织中的细胞类型。不正确的基因调控可以导致很多疾病,例如癌 症。因此,启动子本身也具有重大的研究意义。 随着人类基因工程的发展,人类的基因序列已基本完成排序,但是仍有 很多的编码基因以及他们的启动子区域被遗漏掉;其他物种的启动子区域识 别并不像人类基因工程有大量的数据库支持。因此,建立一个精准的启动子 识别模型是解决这些问题的关键。 启动子的特征主要分为两种:信号特征和内容特征。其中主要的信号特 征 CpG 岛, TATA 框, CAAT 框,启动因子等。DNA 序列由四种核苷酸做成, 他们分别是腺嘌呤(adenine,缩写为 A),胞核嘧啶(cytosine,缩写为 C),鸟 嘌呤(guanine,缩写为 G),胸腺嘧啶(thymine, 缩写为 T)。内容特征可以用 n-mer 来代表所有的特征。它是由 n 个核苷酸做成的序列,例如密码子(3-mer),五聚 物(5-mer),六聚物(6-mer)等。 现有的启动子识别系统将这些特征从训练集中提取出来嵌入模型中,已 达到对启动子,非启动子分类的目的。用于进行特征提取选择方法中,常见 的有位置权重矩阵,隐马尔可夫模型等,还有一些系统开发了自己的统计方 法进行特征的选择。用于建模分类的方法有位置权重矩阵,人工神经网络,支 持向量机, 相关向量机等。 主成分分析法是进行多变量分析一种有效的方法,其主要思想是原变量 矩阵投影到新的空间,获得一组新的变量。通过对原变量空间变换,只有能 够代表原空间绝大部分变量主要成分被保留下来,形成新的空间,从而达到 降维的目的。 DNA 序列本身包含大量信息,而高精度、高效率的分类器需要最有效的 - - II - 特征。内容特征在启动子识别中占很重要的地位,在整个基因组范围内的启 动子区域识别有更普遍的模式。几乎所有信号特征也可以用内容特征来表达。 本实验用主成分分析法从训练集中选取可以有效区分启动子序列和非启动子 序列的内容特征。 为了找到高区分率的内容特征组合,首先分别从训练集提取 3-mer, 4-mer 和 5-mer 的出现频率矩阵。训练集由 5000 条人类启动子序列以及 5000 条人 类 外 显 子 序 列 组 成 。 启 动 子 序 列 来 源 于 转 录 起 始 点 数 据 库 (data base of transcription start sites, DBTSS),外显子序列来源于外显子-内含子数据库 (exon-intron data base, EID)。 通过排列组合,归一化,3 个频率矩阵,可以组成 3-mer,4-mer,5-mer, 3-mer 和 4-mer,4-mer 和 5-mer,3-mer 和 5-mer,以及 3-mer、4-mer 和 5-mer 共 7 个新的矩阵。将启动子与外显子的 7 个矩阵对应组合起来,在由主成分 分析法进行分析,从每组矩阵选取 3 个主成分,得到 7 个新的 3 维向量空间。 最后,将原启动子-外显子组合矩阵投影到对应的向量空间上,准备通过神经 网络训练以及测试,检验其分类有效性。 序列的测验与检验由一个 3 层 BP 神经网络实现。3 层的传递函数分别为 “tan-sigmoid”, “log-sigmoid”, “tan-sigmoid”.训练步数设为 10000,分 类阀值设为 0.5。 为了进行比较,我们采用两个评价指标:灵敏度, 特异性。测试集由区别 于训练集的 5000 条人类启动子序列以及 5000 条人类外显子序列组成。最终, 由 3-mer 和 5-mer 组合特征矩阵训练的网络得到了最佳的性能指标:灵敏度为 0.7340,特异性为 0.6500。由此,本实验中的人类启动子识别网络将采用 3-mer 和 5-mer 矩阵作为分类特征。另外作为信号特征的 CpG 岛将结合选定的内容 特征共同运用于识别系统中。 我们提出两个搭建人类启动子识别网络的两种方案(图 1,图 2)。方案 1 与方案 2 的区别在于对 CpG 岛信号特征的利用上。方案 2 首先将输入序列分 为 CpG 岛相关序列与 CpG 岛非相关序列,再将已分类的序列输

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档