- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
-
- I -
摘 要
本论文运用主成分分析法对人类启动子序列进行特征提取,并建立人类 启动子识别模型对人类基因序列进行分析,获得较好实验结果。
启动子是位于结构基因 5’端转录起始点上游的一段 DNA 序列,它包含着 一些可以被转录因子识别出的结合域。
启动子就像“开关”,通过与转录因子的集合,决定了转录发生的时间和
地点。由于启动子区域临近转录起始点,所以寻找基因的起始位置可以通过 预测启动子区域来完成。启动子可以控制基因的“开”或者“关”,从而决定 了多细胞组织中的细胞类型。不正确的基因调控可以导致很多疾病,例如癌 症。因此,启动子本身也具有重大的研究意义。
随着人类基因工程的发展,人类的基因序列已基本完成排序,但是仍有 很多的编码基因以及他们的启动子区域被遗漏掉;其他物种的启动子区域识 别并不像人类基因工程有大量的数据库支持。因此,建立一个精准的启动子 识别模型是解决这些问题的关键。
启动子的特征主要分为两种:信号特征和内容特征。其中主要的信号特 征 CpG 岛, TATA 框, CAAT 框,启动因子等。DNA 序列由四种核苷酸做成, 他们分别是腺嘌呤(adenine,缩写为 A),胞核嘧啶(cytosine,缩写为 C),鸟 嘌呤(guanine,缩写为 G),胸腺嘧啶(thymine, 缩写为 T)。内容特征可以用 n-mer 来代表所有的特征。它是由 n 个核苷酸做成的序列,例如密码子(3-mer),五聚 物(5-mer),六聚物(6-mer)等。
现有的启动子识别系统将这些特征从训练集中提取出来嵌入模型中,已 达到对启动子,非启动子分类的目的。用于进行特征提取选择方法中,常见 的有位置权重矩阵,隐马尔可夫模型等,还有一些系统开发了自己的统计方 法进行特征的选择。用于建模分类的方法有位置权重矩阵,人工神经网络,支 持向量机, 相关向量机等。
主成分分析法是进行多变量分析一种有效的方法,其主要思想是原变量 矩阵投影到新的空间,获得一组新的变量。通过对原变量空间变换,只有能
够代表原空间绝大部分变量主要成分被保留下来,形成新的空间,从而达到 降维的目的。
DNA 序列本身包含大量信息,而高精度、高效率的分类器需要最有效的
-
- II -
特征。内容特征在启动子识别中占很重要的地位,在整个基因组范围内的启 动子区域识别有更普遍的模式。几乎所有信号特征也可以用内容特征来表达。 本实验用主成分分析法从训练集中选取可以有效区分启动子序列和非启动子 序列的内容特征。
为了找到高区分率的内容特征组合,首先分别从训练集提取 3-mer, 4-mer 和 5-mer 的出现频率矩阵。训练集由 5000 条人类启动子序列以及 5000 条人 类 外 显 子 序 列 组 成 。 启 动 子 序 列 来 源 于 转 录 起 始 点 数 据 库 (data base of transcription start sites, DBTSS),外显子序列来源于外显子-内含子数据库 (exon-intron data base, EID)。
通过排列组合,归一化,3 个频率矩阵,可以组成 3-mer,4-mer,5-mer, 3-mer 和 4-mer,4-mer 和 5-mer,3-mer 和 5-mer,以及 3-mer、4-mer 和 5-mer 共 7 个新的矩阵。将启动子与外显子的 7 个矩阵对应组合起来,在由主成分
分析法进行分析,从每组矩阵选取 3 个主成分,得到 7 个新的 3 维向量空间。 最后,将原启动子-外显子组合矩阵投影到对应的向量空间上,准备通过神经 网络训练以及测试,检验其分类有效性。
序列的测验与检验由一个 3 层 BP 神经网络实现。3 层的传递函数分别为 “tan-sigmoid”, “log-sigmoid”, “tan-sigmoid”.训练步数设为 10000,分 类阀值设为 0.5。
为了进行比较,我们采用两个评价指标:灵敏度, 特异性。测试集由区别
于训练集的 5000 条人类启动子序列以及 5000 条人类外显子序列组成。最终, 由 3-mer 和 5-mer 组合特征矩阵训练的网络得到了最佳的性能指标:灵敏度为 0.7340,特异性为 0.6500。由此,本实验中的人类启动子识别网络将采用 3-mer 和 5-mer 矩阵作为分类特征。另外作为信号特征的 CpG 岛将结合选定的内容 特征共同运用于识别系统中。
我们提出两个搭建人类启动子识别网络的两种方案(图 1,图 2)。方案 1
与方案 2 的区别在于对 CpG 岛信号特征的利用上。方案 2 首先将输入序列分 为 CpG 岛相关序列与 CpG 岛非相关序列,再将已分类的序列输
您可能关注的文档
- 基于主从结构微电网的控制运行与电能质量改善的研究-电气工程专业论文.docx
- 基于中轴骨架的三维模型检索-计算机软件与理论专业论文.docx
- 基于主从模式的产品配置方法分析-机械工程专业论文.docx
- 基于主位推进理论的英语写作连贯性的实证研究英语语言文学专业论文.docx
- 基于主体功能区的甘肃省区域协调发展研究-经济学·区域经济学专业论文.docx
- 基于主体功能区建设的安徽承接产业转移研究-农村与区域发展专业论文.docx
- 基于主体功能区规划的政府绩效评估体系研究-技术经济及管理专业论文.docx
- 基于中药难溶性有效成分甘草酸的磷脂胆盐混合纳米胶束新型给药系统的研究-药剂学专业论文.docx
- 基于主体性培养的化学问题教学-课程与教学论专业论文.docx
- 基于主体的电子商务系统的分析-计算机应用技术专业论文.docx
- 基于主成分分析法的人类启动子识别控制科学与工程专业论文.docx
- 基于主成分分析法的城市品牌竞争力评价研究-管理科学与工程专业论文.docx
- 基于主成分分析法的图像质量评价方法研究计算机应用技术专业论文.docx
- 基于主成分分析法的成华区生态城区评价体系构建和分析-环境科学与工程专业论文.docx
- 基于主成分分析法的新能源行业上市公司投资价值评估研究-工商管理专业论文.docx
- 基于主成分分析法的临沂市电子政务系统绩效评价指标体系研究-工商管理专业论文.docx
- 基于主成分分析法的施工管理与控制研究-系统工程专业论文.docx
- 基于主成分分析法的海洋地质灾害预报决策系统的设计实现-计算机应用技术专业论文.docx
- 基于主成分分析法的格尔木城市竞争力分析-工商管理专业论文.docx
- 基于主成分分析法的贵州制造业产业集聚 实证研究-管理科学与工程专业论文.docx
最近下载
- 2023年广东省技师学院招聘考试真题.docx VIP
- 一元一次不等式(组)的解法课件高一上学期人教版中职数学基础模块上册.pptx VIP
- 初中数学素质教育论文初中数学教育教学论文.pdf VIP
- 国家开放大学高等数学基础形考作业任务2025答案.pdf VIP
- T_NXS 0104T—2024(黄芪趁鲜加工技术规范).pdf VIP
- 电线电缆检测实验室管理制度.docx VIP
- 6.13 中国华能集团公司电力安全生产奖惩办法 .pdf VIP
- 高中物理解题模型.pdf VIP
- 2025江苏省粮食集团有限责任公司秋季招聘考试参考题库及答案解析.docx VIP
- ISO9001内审员综合知识培训.pptx VIP
原创力文档


文档评论(0)