- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
离散增量算法识别蛋白质折叠子
附件2
论文中英文摘要格式
作者姓名:张怀光
论文题目:离散增量算法识别蛋白质折叠子
作者简介:张怀光,男,1983年10月出生,2006年9月师从于内蒙古工业大学胡秀珍教授,于2009年1月获硕士学位。
中 文 摘 要
蛋白质折叠子是介于蛋白质二级结构和高级结构之间的一个结构层次,折叠子反映了一个蛋白质核心结构的拓扑结构模式。研究表明,蛋白质的折叠、空间结构与功能具有很高的一致性,特定折叠子行使特定的生理功能,某些折叠子的异常折叠可引发疾病,如疯牛病,阿尔兹罕默氏病,帕金森氏病,癌症等。在不依赖于序列相似性的条件下,蛋白质折叠子识别是一种分析蛋白质结构的重要方法。
论文从折叠子的一级序列出发,首先介绍了氨基酸组分、二肽组分、位点氨基酸组分、氨基酸物化性组分、预测的二级结构信息、伪氨基酸组分和位置权重矩阵打分值等七种序列特征的提取方法,然后介绍了离散增量算法的定义和分类方法,接着分别引入了基于单分类器和多分类器的两种整体分类策略。基于以上特征参数和算法,分别采用基于单分类器和多分类器的整体分类策略对27类蛋白质折叠子及其所属的结构类型进行了识别研究,均取得了较好的结果。本文的主要工作和创新之处概括如下:
(1)在线服务器的使用和新特征参数的选取。
通过使用WebLogo和PseAAC等在线服务器来提取信息,有利于简便的分析序列、提取序列中有益的特征信息。蛋白质序列的特征提取是基于计算的蛋白质分类研究中最为基本的问题,也是决定分类质量的关键问题。本文中选取的二肽组分、位点氨基酸组分、位置权重矩阵打分值作为参数是首次用于折叠子的识别,并取得了较好的效果。计算发现,次邻二肽组分的引入对折叠子的识别结果有明显提高;使用WebLogo统计分析发现,训练集和检验集的序列长度分布对折叠子的识别结果影响较明显,因此,将位置权重矩阵打分值添加到输入参数中有效提高了识别的精度。
(2)序列特征参数的优化。
由于蛋白质序列在N端和C端所反映的蛋白质信息不同,而本文数据库中27类折叠子中最短的序列含31个氨基酸,因此分别截取序列的N端30位点、中间30位点和C端30位点的氨基酸为研究对象来提取位点氨基酸组分;通过计算,位置权重矩阵分别选取含N端和C端的40个氨基酸残基的序列片段为最佳序列模式;另外,Chou的伪氨基酸组分的和的不同取值对结果影响较大,因此文中选取多个不同取值,验证了最佳和的取值。文中通过以上方法提取得到了位点氨基酸组分、位置权重矩阵打分值和伪氨基酸组分的最佳的特征参数取值。
论文首先选用氨基酸组分,亲疏水及极性氨基酸物化性组分,紧邻、次邻及次次邻二肽组分和序列N端、中间及C端的位点氨基酸组分作为特征参数用于27类折叠子识别,其识别结果不太理想。为了提高识别的结果,我们对上述使用的特征参数进行了优化,改进了存在缺陷的特征参数,同时保留了识别效果较好的特征参数:用Chou的伪氨基酸组分代替了氨基酸组分;用预测的二级结构信息代替了亲疏水及极性氨基酸物化性组分;用位置权重矩阵打分值代替了位点氨基酸组分;二肽组分是一种折叠子的主要特征参数,因此保留了识别结果较好的二肽组分。参数经过优化,更全面的提取了序列中的特征信息,同时降低了特征参数的维数。例如伪氨基酸组分将序列排列顺序信息及物理化学性质考虑进来,位置权重矩阵打分值替代位点氨基酸组分作为27类折叠子的识别参数,将参数的维数由600降低为27。
(3)改进的识别算法和分类策略。
通常蛋白质具有多种特征且每种特征均包含了一定的信息,如果将多个参数共同输入一个分类器,相当于参数进行了串联组合,这种算法虽然可以一定程度上反映序列更多的信息,但是各参数所反映的信息并非完全互补,并且随着参数维数的增加,噪声可能会逐渐增大,从而导致最终分类精度的降低。
论文提出了一种改进的离散增量算法:首先通过多个特征参数构建一系列离散增量算法的分类器,然后加入权重系数将各分类器的离散增量值进行融合用于识别。将各分类器的计算结果进行加权融合可以有效的提取有益的识别信息,提高识别的精度。另外,参与串联组合的参数一般提取的每种参数只使用一次,然而整体分类器下的单分类器的输入参数却更加灵活。例如伪氨基酸组分选取及、及和及分别作为参数,构造成三个单分类器;二肽组分选取次邻(A-A)及次次邻(A--A)两种形式作为两个参数,也可以分别构造成整体分类器下的两个单分类器等。
(4)基于多分类器的整体分类策略中降低了参数的维数。
在分类系统中,过高的特征参数的维数可能会影响识别的结果。基于多分类器的整体分类策略是将多个特征参数分别输入不同的单分类器进行计算,而不是将多个参数的特征向量串联成一个合成向量输入分类器,从而降低了参数的维数,同时节省了计算的时间。
(5)识别的结果。
对于27类蛋白质折叠子,选取伪氨基酸组分、次邻二肽
您可能关注的文档
最近下载
- 髋臼及股骨骨缺损的分型及评价【45页】.pptx VIP
- 理论力学哈工大第六版-课件.ppt
- 2023年高考全国卷(甲卷)数学(理)真题(含解析).pdf VIP
- 虚体医学丛书:医说解集——昆明新空间1025实验室.pdf VIP
- 护理事业近五年发展规划(2026-2030).pdf VIP
- 跨学科实践活动10 调查我国航天科技领域中新型材料、新型能源的应用-九年级化学下册(人教版2024).pptx VIP
- 2024中国可再生能源大会:大型伞梯式陆基高空风力发电技术研究.docx
- 特发性与继发性三叉神经痛诊疗专家共识(2025版).pptx VIP
- 工艺管道施工方案.pdf VIP
- 《像山那样思考》课件.ppt VIP
文档评论(0)