基因启动子序列模式建模与发现 计算机科学与技术专业论文.docxVIP

基因启动子序列模式建模与发现 计算机科学与技术专业论文.docx

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因启动子序列模式建模与发现 计算机科学与技术专业论文

基因启动子序列模式建模与发现 Modeling and Discovering for Motifs of Gene Promoter Sequences 学科专业:计算机科学与技术 研 究 生:田彬 指导教师:宫秀军 副教授 天津大学计算机学院 二零一二年十一月 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得 天津大学 或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名: 签字日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解 天津大学 有关保留、使用学位论文的规定。 特授权 天津大学 可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 (保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 导师签名: 签字日期: 年 月 日 签字日期: 年 月 日 摘 要 启动子序列模式的建模与发现是基因表达与调控组织特异性模式发现的核 心。研究表明,综合多个模式发现工具的结果覆盖度较高,但是需要消除冗余。 目前,在消除模式冗余中缺乏变长模式的定长建模、高质量的模式相似性度量。 针对上述问题,本文提出了变长模式的定长建模方法、基于概率的模式相似性度 量以及无融合相似模式的层次聚类模式发现,提高了消除模式冗余的效果。 针对模式长度可变的问题,本文在综合考虑了模式的位置信息量和双碱基依 赖性的基础上,分别对二者进行特征提取,从而实现对模式建模的目的。模式上 一个位置的信息量是指能描述这个位置重要度的信息,信息量越高表明这个位置 的重要性越大。研究表明,不同位置上的碱基之间存在着相互影响,并且高保留 的位置倾向于聚集到一起。本文基于来自 JASPAR 数据库的模式的分类分析,对 两种建模方法进行了比较分析。 为了提高模式相似性的计算,本文综合考虑了两个模式来自相同源分布的概 率和来自独立源分布的概率,提出了基于概率的相似性度量。本文对分别具有 25 个类别的两组模拟数据集进行分类分析,实验结果表明基于概率的相似性度 量在两种模式建模方法上的表现都是最好的。 针对聚类分析过程中融合相似模式导致模式上碱基分布趋向于均匀分布的 不足,本文提出无融合相似模式的层次聚类模式发现。同时,本文还针对聚类过 程中的关键问题提出了解决方案:聚类质量评分函数;聚类族代表样本的选择; 序列扫描匹配评分函数。本文首先综合上述关键技术对两种聚类方法进行实验比 较,然后结合两组具有 25 个类别的模拟数据集对聚类质量评分函数进行分析评 价,最后展示了来自人体心肌细胞的 76 个组织特异性基因产生的 1417 个模式的 聚类分析结果,通过聚类得到 38 个冗余度低的候选模式。对于结果集,本文首 先利用在线工具 STAMP 对结果进行与已知模式匹配度分析,然后利用来自人体 的 2852 个组织特异性基因和 13275 个 GO 词汇对聚类得到的 38 个模式进行功能 映射分析。并且,在每个方法结果集中出现频率前 10 的 GO 词汇的重合度达到 60%,足以说明方法的可靠性。 通过分析已有消除模式冗余方法的不足,本文提出了变长模式的定长建模方 法、基于概率的相似性度量,提高了消除模式冗余的效率和质量。通过实验发现, 本文提出的消除模式冗余方法得到的结果中部分是现存在的模式,得到的 GO 词 汇绝大部分与心肌或细胞功能相关,表明结果具有一定的可信度。 关键词:序列模式建模,相似性度量,模式发现,启动子序列 ABSTRACT The modeling and discovering for gene promoter sequences are important for understanding of gene expression and tissue specific regulation. Studies show that combining multiple tools is a good way to get full-scale results, then get candidate motifs by reducing redundancy. However, reducing redundancy need steady motif modeling method and reliable similarity scoring method. In this paper, we develo

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档