机器学习算法在生物信息学中的应用 毕业论文.doc

机器学习算法在生物信息学中的应用 毕业论文.doc

  1. 1、本文档共82页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习算法在生物信息学中的应用 毕业论文 目录 摘要 VI Abstract VIII 目录 X 绪论 1 1.1生物信息学简介 1 1.2 机器学习算法在生物信息学中的应用 2 1.3 QSAR简介 4 1.4 论文的主要内容 5 第一章 机器学习算法 6 2.1 决策树算法 6 2.1.1 C4.5算法 7 2.1.2 随机决策树算法 9 2.1.3 随机森林算法 10 2.2. 集成学习算法 11 2.2.1 集成学习算法概述 11 2.2.2 AdaBoost算法 14 Boosting算法介绍 14 Adaboost算法描述 15 2.2.3 Bagging算法 17 Bagging 算法的提出 17 Bagging算法描述 18 2.3 SVM算法 19 2.3.1 统计学习理论 19 2.3.2 支持向量分类算法 21 最优分类面 21 线性可分的情况 21 非线性可分情况 23 2.3.3 支持向量回归算法 23 ε-不敏感损失函数 23 线性回归情况 24 非线性回归情况 25 2.3.4 支持向量机核函数 26 2.4 本章小结 28 第二章 用集成学习算法预测亚细胞定位 29 3.1 蛋白质亚细胞定位的生物学基础 30 3.2 亚细胞定位预测方法现状 33 3.3 数据集以及特征参数的提取 36 3.4 实验与分析 37 3.4.1 预报模型参数的选择 37 3.4.2 预报模型 39 3.4.3 预报模型验证 39 3.4.4 分析与讨论 40 3.5 本章小结 41 第三章 5-脂氧化酶抑制剂的QSAR研究 42 4.1 引言 42 4.2 材料和方法 43 4.2.1 数据集 43 4.2.2 计算机硬件与软件 43 4.2.3 分子描述符 43 4.2.4 基于支持向量回归算法的特征选择 44 4.3 结果和讨论 44 4.3.1 建模变量的选择 44 4.3.2 SVR模型参数的选择 44 4.3.3 SVR模型 48 4.3.4 SVR模型验证 48 4.3.5 讨论 49 SVR参数的讨论 49 敏感性分析 49 4.4 本章小结 51 第四章 在线web预报服务器的建立 53 5.1 J2EE技术与MVC模式 53 5.1.1 J2EE概述 53 5.1.2 J2EE分布式多层应用模型 54 4.1.3 MVC模式 56 5.1.4 基于J2EE的MVC模式 57 5.2 系统的总体设计 59 5.2.1 系统的结构设计 59 5.2.1 系统环境与开发工具 60 5.3 系统的详细设计 61 5.4 已完成的在线web预报服务器 63 5.5 本章小结 64 第五章 总结与展望 65 6.1 全文总结 65 6.2 工作展望 66 参考文献 67 附录一. 1-苯基-2氢-四氢三嗪-3-酮同系物结构及活性值数据 76 攻读硕士期间发表及已录用论文 78 致谢 79 绪论 1.1生物信息学简介 20世纪后期,人类和其他生物物种基因组学的研究飞速发展,生物信息的增长惊人,生物科学技术极大地丰富了生物科学的数据资源。数据资源的急剧膨胀迫使人们寻求一种强有力的工具,运用新的技术手段对复杂的海量生物信息进行储存、管理、分析和研究,并组织好这些数据,以利于储存、加工和利用,进而达到有效管理、准确解读、充分使用这些信息的目的。生物信息学便是在急速上涨的生物信息数据海洋中应运而生。美国人类基因组计划实施五年后的总结报告中,对生物信息学作了以下的定义:生物信息学是一门交叉学科,它包含了生物信息的获取、处理、储存、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。[1] 目前生物信息学的主要任务是研究生物分子数据的获取、存储和查询,发展数据分析方法,研究内容主要包括三个方面: 收集和管理生物分子数据,将各种数据以一定的表示形式存放在计算机中,建立数据库系统并提供数据查询和数据通讯工具,使得生物学研究人员能够方便地使用这些数据,并为信息分析和数据挖掘打下基础。目前国际上已建立起许多公共生物分子数据库,包括基因图谱数据库、核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库等,由专门的机构建立和维护负责收集、组织、管理和发布生物分子数据,并提供数据检索和分析工具,向生物学研究人员提供大量有用的信息,最大限度地满足他们的研究和应用需要,为生物信息学研究服务。迄今为止,生物学数据库总数已达500个以上。在DNA序列方面有GenBank、EMBL和DDBJ等。在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等。在蛋白质和其它生物大分子的结构方面有PDB等。在蛋白质结构分类方面有SCOP和CATH等。[1]

文档评论(0)

你好世界 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档