基于逐步判别分析的蛋白质序列信息提取的方法研究-应用数学专业论文.docxVIP

下载本文档

3
0
约4.45万字
约 49页
2019-04-19 发布于上海
举报
版权申诉

基于逐步判别分析的蛋白质序列信息提取的方法研究-应用数学专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘摘要人类基因组计划的实施使得蛋白质的一级结构数据与日俱增．但是，人们对蛋白质的三级结构和功能的认识却远远落后于一级结构的积累．后基因组时代迫切需要人们寻找有效的理论方法来从蛋白质一级结构预测三级结构和功能，以便于基础研究或在医学、农业及工业生产中的应用．在这样的前提下，文中提出了一种有效地从氨基酸序列来提取信息，提高预测准确率的新方法．该方法基于多元统计中的逐步判别分析，在每次循环中选取一些相对较为重要的肽，用来产生新的更长的肽．最后用选取的氨基酸和肽进行判别，结果比已有方法有很大改善．文中主要工作如下： l、对三个不同的结构类数据库进行预测，准确率比以往方法高15到20个百分点．用从较大的数据库(PDB40-b)中提取出的参数来预测较小的库(PDB40-j)，超过80％的序列被准确地判别出其结构类型，准确率仍比其它方法高．对于其中两个数据库，随机地从中取一部分序列作为检验集，将剩余的序列作为训练集，用从原数据库中选取的变量进行预测．反复进行100次，预测结果都比较高，和l中结论没有很大差距，显示该方法的有效性．用从较大数据库中提取的变量进行典型判别，寻找与组有最大可能多重相关的变量的线性组合，得到三个典型变量．用它们作三维描点图，各类数据被很好的区分．用该方法对蛋白质亚细胞位置进行预测，也得到很好的预测结果．且所选变量的生物意义比较明显．关键词：逐步判别、典型判别、结构类、亚细胞位置、多肽、氨基酸组成、二级结构缩写： AAC，基于氨基酸组成的分量耦合算法 ABSTRACTOwing ABSTRACT Owing to different paces of technological progress in resolving protein structures，a widening gap appears between sharply increasing known sequences and slow accumdation ofknown structures．The Hmnan Genome Project and the study ofthe functional genome are already with US．It is urgent to find a trustworthy theoretical approach to predict protein structures and functions，SO as to make convenience for fundamental researches and the practical application in medicine，agriculture and industry production．In such circumstances， a new approach is presented in the thesis to effectively extract information from amino acid sequences and to improve predictive accuracies． The algorithm is based on stepwise discriminant analysis，which is a multivariate statistical method，In each cycle,some relatively important peptides are sneered to form longer peptides．Using the finally chosen amino acid residues and peptides to make predictions，the results are greatly better than those of the existing approaches．The chief works in the paper are： 1．Make predictions of three different structural class datasets and get overall predictive accuracies 15％～20％higher than those obtained before． 2．Using the variables extracted from the bigger dataset(PDB40山)to predict the sequences 漱the smaller one(PDB40-j)，more than 80％sequenc