- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE I
摘要
20世纪后期,人类和其他生物物种基因组学的研究飞速发展,生物信息的增长惊人,生物科学技术极大地丰富了生物科学的数据资源。数据资源的急剧膨胀迫使人们寻求一种强有力的工具,运用新的技术手段对复杂的海量生物信息进行储存、管理、分析和研究,组织这些数据,以利于储存、加工和进一步利用,有效管理、准确解读、充分使用这些信息。
本文的工作就是应用机器学习方法来对生物信息数据进行分析,处理。本文的主体工作分为三个部分:
1. 用集成学习算法研究蛋白质亚细胞定位预测。蛋白质的亚细胞位置,是蛋白质的一个重要性质,能够表明蛋白质在细胞中的功能。预报蛋白质亚细胞位置,在基因注释和药物设计工作中,都扮演了很重要的角色。本文用基于序列氨基酸组成成分进行蛋白质序列特征编码,选用了AdaBoost与Bagging这两种最重要的集成学习算法来对训练数据集进行建模。在建模过程中,分别尝试了用4种不同的弱分类器来训练样本,并用基于交叉验证法的建模结果来对建模参数进行优化。结果表明:用AdaBoost随机森林算法作为弱分类器时有最好的建模结果,交叉验证预报正确率为76.51%;Bagging用最近邻算法作为弱分类器时有最好的建模结果74.21%。用独立测试样本集对训练好的预报模型进行验证,AdaBoost与Bagging的最大预报正确率分别为80.75%和80.90%,优于SVM方法所得结果(SVM的训练模型交叉验证预报正确率为76.46%,独立测试样本集预报正确率为76.98%)。
2. 用支持向量机回归算法(SVR)对1-苯基-2氢-四氢三嗪-3-酮同系物进行QSAR研究。1-苯基-2氢-四氢三嗪-3-酮同系物可用作5-脂抗氧化酶抑制剂。本工作中用来自文献的12个拓扑指数与Hyperchem计算得到的17个物理化学参数作为初始分子描述符,然后用基于SVR留一交叉验证法进行变量筛选,最终得到8个分子描述符用于建立预报模型。该模型的留一交叉验证法的RMSE(最小残差平方和)为0.2834,作为对比,多元线性回归算法(MLR)、偏最小二乘法(PLS)、人工神经网络(ANN)的RMSE分别为0.4301、0.4379 、0.4039;SVM与MLR、PLS、ANN的独立测试集验证结果的RMSE分别为0.2834、0.3316、0.3470和0.3581。
3. 提出了一种基于MVC架构的服务器设计途径,建立了基于已得模型的在线预报服务器。建立生物信息学预报模型的目的是为了提供对生物信息中的未知对象进行预报的工具,使得预测结果能够为他人所用。为了更好的达到这个目的,将研究得到的预报模型提供给所有相关领域的研究人员,建立在线预报服务器是一条有效途径。
关键词:生物信息学,定量构效关系(QSAR),机器学习,集成学习,支持向量机(SVM),支持向量回归算法(SVR),AdaBoost,Bagging,亚细胞位置定位,5-脂抗氧化酶抑制剂,在线预报服务器
Abstract
In the late 20th century, genomics research in human and other living species had been developed rapidly, and the information of biology increased by surprised speed. The information source of bioscience was great enriched by bioscience techniques. The rapidly expanding of information source force people to search for a powerful and effective tool, which uses new techniques to the storage, management, analysis and research of the mass of complex biological information, then organize these data to be better in storage, processing and utility.
Machine learning methods were used to analyse and process the data of biological information in this work. The main work of the paper contains three parts:
1. Using integrated learning algorithm t
您可能关注的文档
- (毕业学术论文设计)-后庄小学班级图书管理制度.doc
- (毕业学术论文设计)-呼和浩特市18路公交车通行能力分析.doc
- (毕业学术论文设计)-呼叫中心对电子商务的重要性探析—以京东商城为例.doc
- (毕业学术论文设计)-湖北新军打响辛亥首义的原因探析—从湖北新军与北洋新军的比较谈起.doc
- (毕业学术论文设计)-湖南省岳常高速公路综合设计.doc
- (毕业学术论文设计)-湖南湘西名俗特色旅游开发研究.doc
- (毕业学术论文设计)-虎跳中学2013届九年级英语上学期第一次诊断性考试试.doc
- (毕业学术论文设计)-互动式道路及立交CAD系统进公路设计.doc
- (毕业学术论文设计)-互惠网创业计划书.doc
- (毕业学术论文设计)-互联网散件销售网站.doc
- (毕业学术论文设计)-机械_MP3外壳模具工艺分析与设计.doc
- (毕业学术论文设计)-机械刀具论文正文.doc
- (毕业学术论文设计)-机械加工工艺分析与改进设计论文.doc
- (毕业学术论文设计)-机械课程设计_盘类轴向多孔成组钻模.doc
- (毕业学术论文设计)-机械企业外贸业务及其管理的研究》.doc
- (毕业学术论文设计)-机械企业外贸业务及其管理的研究4985341》.doc
- (毕业学术论文设计)-机械企业外贸业务及其管理研究》.doc
- (毕业学术论文设计)-机械设计制造及其自动化_外文翻译__液压支架的最优化设计.doc
- (毕业学术论文设计)-机械设计制造及其自动化发展方向的研究论文.doc
- (毕业学术论文设计)-机械凸轮鼓式制动器设计.doc
文档评论(0)