- 1、本文档共47页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多肽结构与留时间关系的研究
摘要
摘要
随着仪器和分析技术快速发展,蛋白质组学有了新的进展,并成为最重要的
生命科学领域之一,其实验数据庞大,要求高通量计算来提高多肽鉴定得分,
从而提高蛋白鉴定准确度。而液相色谱中多肽的保留时间信息始终没有得到很
好的利用,保留时间是色谱分析中重要的参数,如果能够更好地利用此参数可
以提高多肽鉴定质量,从而提高蛋白质的鉴定可靠性。本文试图利用这些信息
抓住多肽保留行为的特点,运用化学计量学,化学信息学中常用的方法PLS,
KPLS,SVR等建立多肽保留时间的QSAR模型,提高多肽鉴定质量,从而提高
蛋白质鉴定的数量和质量。
本文研究的对象多肽与其他化合物不同,多肽是由20种氨基酸组成,反映
它们结构的数据目前并没有直接显示,许多学者都是假设多肽的各种物化性质
是通过组成它们的氨基酸的性质加和来反映的。本文以文献中搜集到的3个数
据集为研究对象逐级深入地研究多肽结构和保留时间的关系,并提出了变量优
化的方法和新的局部变量,创造性地以局部变量结合全局变量建立QSAR模型,
为QSAR的研究开辟了新的研究方向,并建立了共识模型,得到0.96以上的相
关性系数,远远高于文献值。
具体研究步骤如下:首先大规模的搜集20种氨基酸的物化性质,以及多肽
研究中新产牛的各种组合变量。以数据集1——复旦大学张祥民实验室所得136
个多肽为研究对象,通过变量筛选后运用PLS,KPLS,SVR对其建模预报。同
时因为单个氨基酸的保留时间来自文献,与136个多肽的保留时间的实验条件
不同,所以剔除了这个变量再次建模预报,并运用共识模型预报所得的相关性
系数达到0.83优于文献值0.81。但这个结果远远没有达到本文的要求,故希望
寻找新的更多的多肽数据集,寻找潜在的新的变量,特别是尝试局部变量在多
肽结构与保留时间关系中的应用。
接着以数据集2——346个多肽为研究对象,提出了与位置有关的变量和与
性质强度有关的变量,利用PLS,KPLS,SVR,共识模型等方法建模预报,所
得相关性系数0.96以上由于文献所得的O.92。
最后以数据集3——834个多肽为验证对象,用同样的方法,同样的变量,
摘要
建模预报,所得相关性系数达到0.97,远远高于文献的O.93。并得出结论:局
部变量和全局变量相结合的方法有效的反映了多肽结构和保留时问的关系,为
多肽鉴定和蛋白质鉴定奠定基础。
关键词:QSAR,蛋白质组学,保留时问,局部变量,共识模型
Ⅱ
ABSTRACT
ABSTRACT
Withthe of and havemade
technology,proteomics
rapiddevelopmentapparatus
oneofthe
new andbecomethemost life
progress important sciences;the
datais the calculationcould
experimentalhuge,andonly high—throughput improve
identification enhancetheidentificationof thereis
peptide score,SO硒to protein.But
nota methodtobeused inthe retentiontimefrom
good
文档评论(0)