- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
机器学习方法在物序列分析中的应用
致谢
致谢
本文的完成首先要感谢我的导师许力教授,在他的悉心指导和鼓励下使我克服了研究
中的许多困难。在我的学习过程中,从论文选题、方案设计和论证,到论文的撰写与修改,
每一个环节都离不开导师的精心指点。导师严谨、勤奋、认真的治学态度,从容、乐观、
豁达的做人风格,不仅使我明白了如何看待事物,懂得了如何规划自己的人生,同时还学
会了许多待人接物与为人处世的道理。许老师不但在学习和研究工作中给予我悉心的指导,
更在生活中给予我无私的关怀,及时地为我解决困难和提供帮助,借此机会向导师表示我
最诚挚的谢意!
感谢电气自动化学院的所有领导、老师及全体员工,感谢你们提供了一个良好的学习、
工作环境,为我的课题研究带来极大的方便,能够顺利完成博士论文的研究和撰写!在读
博的期间,有幸得到了许多老师的指导和帮助,在此,向他们表示衷心的感谢!同时,还
要感谢研究生院办公室的各位老师,感谢她们在我日常学习工作中给予的大力支持和热心
帮助。
感谢先后进入实验室的各位同学,他们是张慧源、叶芳芳、鲁二峰、周峰、林剑、胡
杰等等。在日常的工作中,他们营造了很好的学习讨论氛围,同他们的交流和合作,给了
我很多的启发和灵感。感谢老同学陈家乾博士,他在科研和工作上给了我很多有益的建议
和帮助。
感谢我在苏州的单位领导和各位同事。在我攻读博士期间,他们在工作、生活上提供
了巨大的帮助和便利,让我能够专心于学习和科研,在此表示深深的谢意!
感谢我的父母和家人。多年来,他们的关心与爱护以及一如既往的支持和鼓励,是我
坚实的后盾,让我时刻充满信心和勇气来面对一切。谢谢!
宋佳
2013年9月
I
中文摘要
摘要
生物信息学是一个新兴的跨学科研究领域,通过采用计算方法来解决分子生物学问题,
最终目的是能够发现隐藏于海量生物数据中的生物模式和信息,并应用这些信息来提高对
一些重要的生物运行机制的理解。生物序列分析则是生物信息学领域重要的基础性研究工
作。近年来,随着生物学实验数据的爆炸式增长,机器学习方法在生物序列分析和重要信
息的提取中发挥着越来越重要的作用。机器学习通过建立适当的统计模型,可以捕捉隐藏
于大量实验数据中的复杂模式并基于它们做出决策。因此,机器学习方法特别适用于类似
生物信息学的拥有大量数据但相应理论很不完善的领域。
本文围绕机器学习方法在生物序列分析中的应用展开研究,主要做了以下工作:
l、求解多序列的最优比对是一个NP问题,目前已有大量的方法和程序被开发出来用
—专耋;z!三一、
于蛋白质多序列比对。但是,这些方法大多数都是使用优化得分函数的方法获得最佳或接
近最佳的比对,因此只能产生一个单一的比对结果。最近的研究工作发现,通过最优化得
分函数的方法取得的最佳序列比对结果,往往并不是最具有生物学意义的比对。因此,本
文提出一种基于集成学习的多蛋白质序列比对方法,将隐马尔可夫模型作为集成学习中的
基分类器,在对训练集中的序列进行排序后依次与隐马尔可夫模型进行比对,根据比对结
果优化模型参数,最后生成一组分数较高的比对结果。在构建集成学习系统时,提出并证
明了一种双序列比对方法,可以精确计算出两个给定蛋白质序列的具有领先分数的若干个
比对结果,其计算的时间复杂度为二次函数。此外,针对蛋白质二级结构信息对序列比对
结果的影-向,在之前模型的基础上进行改进,通过一个匹配矩阵实现蛋白质二级结构的匹
配分数计算,并初步分析和探讨了引入二级结构信息对不同测试组的比对精度影响。
2、针对目前基于共变模型的非编码RNA序列搜索软件计算效率低的缺点,对传统共
变模型进行了改进。首先,对非编码RNA家族的成员序列与该家族的共变模型比对的结果
进行了分析,结果表明在共
文档评论(0)