- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多分类机器学习及其在蛋白质结构类预测中的应用-控制工程专业论文
杭州电
杭州电子科技大学硕士学位论文
摘 要
随着人类基因组计划的完成以及生物测序技术的发展,大量的蛋白质序列信息数据不断 涌现出来。然而人们对蛋白质高级结构和功能的认识还不够,远远落后于对蛋白质序列的认 识。同时通过传统的生物实验方法已经无法满足海量数据的处理需求,因此非常有必要探讨 借助计算机的快速计算能力,来进行蛋白质结构和功能的理论研究,这也是摆在生命信息科 学工作者面前的极具挑战的任务。
蛋白质作为生命活动的主要表现者和承担者,通过研究其结构和功能的相互作用来揭秘 生命的内在奥秘,是新世纪生物信息学研究的核心内容。而蛋白质结构类是人类研究蛋白质 结构和功能的关键,所以本论文的主要内容是围绕着蛋白质结构类预测这个问题。主要从以 下三个方面进行展开,蛋白质序列特征信息的提取及组合、蛋白质序列多特征信息的特征挑 选以及基于机器学习的蛋白质结构类预测。为了进一步提高蛋白质结构类的预测精度,本研 究主要从以下三个方面进行了尝试,现将本研究的主要工作及其创新之处总结如下:
1)蛋白质序列特征信息的提取及组合 特征信息的提取的好坏直接影响蛋白质结构类预测精度,为了更加全面的描述一条给定
的蛋白质序列,本文提出了一套能够全面反映蛋白质序列的特征信息。具体包括以 k-字统计 频率和 k-片段位置分布两种特征提取方法分别提取了蛋白质一级序列、蛋白质物理化学性质 序列以及蛋白质二级序列的频率和位置信息。并将这些不同性质的特征信息进行融合,有效 的克服了特征信息单一的缺点,为提高蛋白质结构类的预测精度打下了坚实的基础。
2)蛋白质序列多特征信息的特征挑选 虽然融合越多的不同性质的特征信息能够更加全面的描述蛋白质序列,但是实际情况是
并不是特征维数越多,分类的精度就会越高。相反,由于高维的特征信息中包含的噪声和冗 余性也越多,增加了分类模型的计算量和复杂度,反而不利于提分类器的分类精度和其推广 能力。所以,本文采用基于遗传算法的特征信息选择算法,并将其应用于蛋白质序列的特征 信息挑选。遗传算法的主要思想是“优胜劣汰,适者生存”,那些适应度差的特征随着迭代次 数的增加就会被逐步丢弃,而那些适应度好的特征则会被保留下来,继续繁衍后代,经过遗 传算法选择后的特征信息集中既保留了原特征信息集中的绝大部分信息,又降低了特征信息 集的维数,有利于分类模型性能的改善。
3)基于机器学习的蛋白质结构类预测 在蛋白质结构类的预测研究中,机器学习算法是一个非常重要的环节,直接关系到结构
类预测的成败。在本研究中,首先主要介绍了常见的三种单分类算法,分别为人工神经网络、 贝叶斯算法以及支持向量机。但传统的单分类器算法存在着一些不足,在所有的单分类器算 法中,没有任何一种分类算法能够对任意给定的的样本特征都具备很好的区分能力。紧接着
I
介绍了四种常见的多分类器融合算法,分别为多数投票法、贝叶斯规则、平均值法和加权平
均值法。但是常见的多分类器融合算法的单个分类器之间的决策结果是相互独立的,并没有 通过单分类器之间的充分协商,造成了一些决策信息的丢失。鉴于此,本研究提出了一种新 的多分类器融合算法—Ma_Ada 算法。实验结果也表明,Ma_Ada 多分类器融合算法能够较大 程度的提高蛋白质结构类的预测精度。
综上所述,本研究从生物信息学的角度出发,较为系统地解决了蛋白质序列信息提取及 多特征信息融合、蛋白质序列多特征信息的特征挑选和蛋白质结构类预测等信息处理问题。 这些研究成果有助于促进蛋白质的结构及功能的更进一步研究,同时也对蛋白质序列分析、 机器学习领域的发展有很大的帮助。 关键词:蛋白质结构类预测,特征提取,遗传算法,机器学习,多分类器融合算法,Ma_Ada
融合算法
II
PAGE
PAGE III
ABSTRACT
With the completion of the Human Genome Project and the development of bio-sequencing technology, vast amounts of protein sequence informations are produced. However, a great gap emerges between sharply increasing known protein sequences and slow accumulation of senior protein structures and functions.The traditional method of biological experiments have been unable to meet the demand, so it is meaningful to find a reliab
您可能关注的文档
- 俄汉语水上运动动词隐喻对比研究-俄语语言文学专业论文.docx
- 俄罗斯“休克疗法”时期的产权制度改革及其影响-科学社会主义与国际共产主义运动专业论文.docx
- 俄罗斯与欧盟关系制度化分析-管理科学与工程专业论文.docx
- 俄罗斯企业采购管理中的回扣问题研究-国际经济与贸易专业论文.docx
- 俄罗斯产业结构演变分析-产业经济学专业论文.docx
- 俄罗斯参与国际司法机构及其活动的法律问题研究-国际法学专业论文.docx
- 俄罗斯参与国际石油合作的立法研究-国际法学专业论文.docx
- 俄罗斯后贝加尔国立人文师范大学汉语教育现状分析-汉语国际教育专业论文.docx
- 俄罗斯吸引外资问题研究-国际商务专业论文.docx
- 俄罗斯大学生汉语学习动机研究-汉语国际教育学专业论文.docx
- 多分辨率图像锥结合FCM的多核并行图像分割算法研究-计算机软件与理论专业论文.docx
- 多分辨率分析下脑MR图像纹理特征提取和识别-通信与信息系统专业论文.docx
- 多分辨率图像锥结合FCM的多核并行图像分割算法研究计算机软件与理论专业论文.docx
- 多分辨率地形数据库的设计与实现-软件工程专业论文.docx
- 多分辨率空间数据的索引和应用-计算机软件与理论专业论文.docx
- 多切口浮线引流并术后中药冲洗治疗坐骨直肠间隙脓肿的临床分析-中医外科学专业论文.docx
- 多分量混合信号的直接波形数据合成方法研究-仪器科学与技术专业论文.docx
- 多刚体系统的协调控制研究-控制理论与控制工程专业论文.docx
- 多判据协同的变压器保护分析-电力系统及其自动化专业论文.docx
- 多剂量注射药物启用后安全使用期限的系统评价-药理学(临床药学)专业论文.docx
最近下载
- PLC应用技术 第3版 项目五 自动送料装车控制.ppt VIP
- 小班数学活动串木珠.pptx VIP
- DBJ50_T-037-2017 烧结页岩多孔砖和空心砖砌体结构技术标准.docx VIP
- 《港口翻车机房地下结构施工规程》.pdf
- 2024—2025学年贵州省贵阳市云岩区联盟校九年级上学期期中考试物理试卷.doc VIP
- 先天性心脏病艾森曼格综合征护理查房.pptx VIP
- 礼项目二民航服务形象妆出来67课件.pptx VIP
- 车辆采购服务项目供货方案.doc VIP
- 2026年高考作文素材积累之诺贝尔文学奖获得者拉斯洛(素材+适用话题+写作示例).docx VIP
- 《百年孤独(节选)》课件(共32张PPT)-高中语文选择性必修 上册课件.pptx VIP
原创力文档


文档评论(0)