基于吉布斯采样算法的模体查找新斱法的研究-生物医学工程专业论文.docxVIP

基于吉布斯采样算法的模体查找新斱法的研究-生物医学工程专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于吉布斯采样算法的模体查找新斱法的研究-生物医学工程专业论文

分类号 密级 UDC 注1  学 位 论 文 基于吉布斯采样算法的模体查找新斱法的研究 (题名和副题名) 匡 斌 (作者姓名) 指导教师姓名 饶妮妮 教 授 电子科技大学 成 都 (职务、职称、学位、单位名称及地址) 申请专业学位级别 硕士 专业名称 生物医学工程 论文提交日期 2007.5 论文答辩日期 2007.6 学位授予单位和日期 电子科技大学 答辩委员会主席 评阅人 2007 年 月 日 注 1:注明《国际十进分类法 UDC》的类号。 独 创 性 声 明 本人声明所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。据我所知,除了文中特别加以标注和致 谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得电子科技大学或其它教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示谢意。 签名: 日期: 年 月 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位 论文的规定,有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以 将学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文。 (保密的学位论文在解密后应遵守此规定) 签名: 导师签名: 日期: 年 月 日 摘要 摘要 摘 要 基因转录是遗传信息传递和表达的枢纽,是基因表达调控机制发挥作用的重 要环节。转录过程的开启与否首先受到启动子、顺式调控元件、RNA 聚合酶和相 应转录因子特异性作用的控制,因此识别调控元件是理解基因转录调控机制和表 达模式的的关键。传统上是通过生物学实验方法来测定调控元件的,随着计算机 技术的飞速发展,科学家们逐渐用计算机模拟来指导实验的设计,以减少实验过 程中的尝试性工作。从序列来预测调控元件是基于这样的假设:由于长期进化的 结果,受相同调控机制作用的基因(共调控基因)包含相对保守的启动子和调控 元件,正是这种保守性使从序列来预测调控元件成为可能。 模体(motif)的定义是指比较短的具有保守性和连续性并且可能具有某种潜 在的生物学意义的一段核酸或蛋白序列。为了简化模型,通常基因调控元件识别 使用基因转录水平上的简化调控模型,忽略远程作用。共调控的基因很可能在启 动子区域共享模体。这样转录水平基因调控元件的识别问题就转化为从一组已知 的共调控基因上游启动子区域中寻找共同的模体。 在本文中,首先分析了当前流行的模体查找算法的总体情况和大体分类,并 且指出了算法的主要缺陷和发展方向。然后结合吉布斯采样的基本原理,提出一 种基于统计分析改进的吉布斯采样算法来改进模体查找的方法。该方法引入了模 体库的概念,采用统计分析的方法,有效地改进了吉布斯采样的局部收敛的缺陷, 并且提高了模体查找的命中度。和当前的流行算法相比,本文提出的算法在双模 体模式的查找方面有比较明显的改进。 本文还分析了当前流行的马尔科夫链(Markov)背景模型用来减少噪声的改 进方法,根据背景模型的基本原理提出了一种新的编码方法,该方法对碱基数据 采用模拟 4 进制编码,可以有效管理 2 至 4 个连续碱基的概率统计数据。本文还 提出了记分函数因子(Scoring Factor)的概念,有效地减少了数值计算中的误差 放大问题,通过对一组有生物学意义的数据应用该算法,结果显示该算法有较好 的精确度。 关键词:模体,吉布斯采样,马尔科夫链,背景模型 I II II ABSTRACT ABSTRACT One important problem in bioinformatics is to understand how genes cooperate to perform functions, i.e. the gene regulatory network. Since the experimental determination of motif is expensive and time-consuming, the computational methods are developed greatly. Usually, the computational methods assume that through long time evolution, the gene which is regulated by the co-regulated gene clusters contains conserved gene cluster called motif. Co-regulated genes co

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档