- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
蛋白质可化分析
蛋白质序列可视化
摘要
DNA和蛋白质是生命中的两大核心物质,研究DNA和蛋白质序列对人类生命有重大意义。首先本文了一份关于DNA可视化工作方面的科学报告,从中阐述了它的工作原理和说明了它对研究DNA结构的影响和意义。其次对于蛋白质序列可视化方面,我们画出其在3D空间的曲线图(曲线的x、y轴坐标由Randic方法得到,z轴坐标由蛋白质序列中氨基酸的的累计个数得到),通过3D图形比较我们得出了蛋白质序列间的相同点和不同蛋白质之间序列的异同点。再次对于区别两类不同的蛋白质序列,我们画出第一、二类序列的3D曲线,取它的几何中心作为该序列的数值特征(3维向量),通过比较序列数值特征的欧式距离,我们来判断蛋白质的分类。在判断过程中,我们分别取第一、二类蛋白质前八个序列为学习样本,后三、四个序列为检验样本,通过比较前八个学习样本数值特征的平均值与检验样本数值特征间的欧式距离来判断蛋白质的分类。最后,本文对模型改进方面提出了些建议。
关键词:蛋白质序列 可视化 欧式距离
一 问题的重述
生物信息学是一个较新的学科领域,它涵概了对基因组信息的多个研究过程,通过综合运用生物学、信息学、统计学、数学等工具和手段,来阐明和理解生物数据,使之成为具有明确生物意义的生物信息,并通过对生物信息的查询、检索、比较和分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系。蛋白质是生命体赖以生存的营养要素,是细胞组织的重要组成部分,几乎所有的生物过程都与蛋白质发生某种联系。根据蛋白质序列的排列顺序和序列信息确定蛋白质的功能成为生物学研究重点。它的主要研究方法可分为两大类,其一是利用实际实验的方法来预测,包括X光绕射和核磁共振;其二则是利用理论计算的方法,包括同源建模法、折叠识别法以及从头预测法三种。虽然用实验的方法较为准确,但花费的时间长,而且很多蛋白质难以结晶,因而实验结果也受到技术和设备上的制约;相对而言,用理论计算的方法则可以避免这些缺点,所以发展基于蛋白质序列对结构和功能进行预测的模型成为必要。
由于生物数据的复杂性和高维性,既不能以数字公式表示,也不能以逻辑公式表示,故对这些序列的研究大多是基于统计工具。此外,通过数据的可视化,帮助人们认识和理解生物序列,进而分析和解释数据,使人们从表面上看来是杂乱无章的海量数据中找出隐藏的规律,为科学发现提供依据。所以,现在有些学者开始借助各种可视化工具,以图、树、方体、链的形式展现其复杂结构和序列模式,以求直观地表达生物序列的理论结构与区别。常用的生物数据可视化工具有语义镜技术、信息壁技术、基因调控网格等。同时,将经过数据挖掘工具得到的数据结果也以图形、图像的形式展现给用户,便于用户寻找数据间的规律和关系。
目前对于DNA(RNA)序列的二维和三维重构方面的工作已经取得较大的进展,但对于蛋白质等大分子在这方面的工作还有待于深入。此外,通过对蛋白质结构和功能的分析,能获取隐含其中的有用生物学信息,为我们理解生命、发现新药物和新疗法提供帮助。蛋白质是由20个氨基酸按不同排列构成,因此,蛋白质类型分析从某种意义上说就是对序列数据的挖掘20氨基酸,一个长度为L的蛋白质序列表示如下: 表示蛋白质序列中第个出现的氨基酸,它是{A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、Y}中的某一个。CGR-游走序列 :第i个氨基酸在正20边形顶点的x轴坐标(i=0,1….19)
:第i个氨基酸在正20边形顶点的y轴坐标(i=0,1….19)
:蛋白质序列的长度
:蛋白质序列中第i个出现的氨基酸
:序列的第k个氨基酸残基对应的x轴坐标
:序列的第k个氨基酸残基对应的y轴坐标
:蛋白质序列的第k个在空间中对应的x,y,z轴坐标
:第一类蛋白质的第j个序列的几何中心
:第一类蛋白质的总几何中心
:第二类蛋白质的第j个序列的几何中心
:第二类蛋白质的总几何中心
:预判蛋白质序列的几何中心
:预判蛋白质序列C与第一类蛋白质序列A之间的欧氏距离
:预判蛋白质序列C与第二类蛋白质序列A之间的欧氏距离
四 模型的分析与建立
4.1 对问题一的分析与模型建立
4.1.1问题一的分析
为了画出部分蛋白质序列的图形,我们可以参考画DNA序列图像的方法,但是,蛋白质序列的图形表示研究只是近几年的事,主要原因是蛋白质序列中氨基酸种类数目远远大于DNA序列中碱基的种类数目(20:4)。在DNA序列中,4中碱基最多只有种不同的排列顺序,而20种氨基酸的排列数太大,导致可能的图形表示数目太多,不能一一列举,这就需要给出某种
文档评论(0)