- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘在植物蛋白质组学研究中的应用
刘欢
(学号:51041300069,导师:张红锋)
摘要:数据挖掘是一个崭新的计算机应用领域,是一种从数据库中提取预测性信息的新技术。本文在介绍植物蛋白质组学研究背景的前提下,阐述了数据挖掘的原理、方法及其在植物蛋白质组学研究中取得的进展,分析了现有数据挖掘技术存在的问题,提出当前应该在确保数据质量的前提下,重视数据挖掘中系统数据分析和归纳的能力。
关键词:蛋白质组;植物蛋白质组学;数据挖掘;数据分析
2000年6月人类基因组工作框架图的完成,标志着生命科学的研究进入了后基因组时代。此时生命科学的研究重心开始从揭示生命的所有遗传信息,逐渐转移到对生命功能的整体性研究上。蛋白质组学这一新兴学科应运而生。蛋白质组学的定义是:“对一个组织、细胞、或亚细胞组分中蛋白质群的系统分析”[1]。在蛋白质组学的研究中,植物蛋白质组学的研究仍处于起步阶段。如何结合生物信息学技术,对植物蛋白质组进行系统、高效的研究,是后基因组时代功能基因组学研究的重点领域。其中特别是如何结合最新的数据挖掘技术,对提取的大量数据进行分析、综合、归纳和判断,以此来发现蛋白质组中隐藏的关系和规则,提出预测性的建议,成为了研究中的热点。
植物蛋白质组学研究的现状
1.1 植物蛋白质组学的概念、意义以及产生背景
蛋白质组(proteome)这一概念,最早由Wilkins等(1994)提出,与基因组概念有着内在的联系和区别[2]。蛋白质组学从总体上对生命的功能载体———蛋白质进行研究。蛋白质组学研究目前已迅速地在全球范围内展开。总的来说可以分为两方面,也就是蛋白质组学发展的两条路线。
作为数据库,即从细胞或组织的整体水平研究蛋白质表达的量化谱。由于蛋白质组的高度动态变化,一个蛋白质组的数据库必须包括诸多因素,例如细胞表型、状态和所使用的分析软件,翻译后修饰的量和度,亚细胞定位,以及与其它蛋白的相互作用等。
作为生物学研究的方法,或者称为功能蛋白质组学。即分析不同状态的系统与正常的蛋白质组,进行定量比较,得到某状态的特征性蛋白。通过这种方法可以帮助人们理解复杂的生物过程[3,4]。
近年来,由于双向电泳技术、蛋白质检测及定量、指纹图谱和利用质谱仪(MS)测定蛋白质序列,增加了蛋白质组学分析的敏感度及效能,蛋白质组学作为生理和遗传研究的新工具,已渗透到植物特异性组织和器官的生理过程,对生物和非生物因素的胁迫反应。尤其是在由环境因子引起基因表达的变化及叶绿体膜蛋白结构等方面取得了长足进展。生物信息学及各种基因分离方法的改进,将有助于新基因的鉴定、分离。迄今,实验室鉴定的大多数蛋白赋予了生物学功能。然而,人们更期望基于基因组学研究发现未知功能的蛋白结构,利用结构和功能的相关性方法发现蛋白未知的功能,并阐明目标蛋白质在信号转导途径中的位置,揭示植物抗病的机理。对不同生物的蛋白质组进行比较性研究,则可为研究植物的分子进化途径、探讨植物的起源等问题提供线索。蛋白质组数据库还将可能成为农药设计的路标。
1.2 植物蛋白质组学研究中的技术方法
蛋白质组学研究中的技术方法包括:双向聚丙烯酰胺凝胶电泳(2D-2PAGE),质谱分析技术(Massspectrometry,MS),双向高效柱层析,蛋白质芯片,酵母双杂交系统和数据库搜索引擎等。其中,数据库搜索和生物信息学在植物蛋白质组学研究中得到了越来越多的运用。许多研究实验室都已经开发出了一些搜索引擎,其中一些已经商业化。
1.3 植物蛋白质组学的研究现状
植物基因组学的研究主要集中在拟南芥(Ara2bidopsis thaliana)和水稻(Oryza sativa)两种模式植物上。2000年12月,美、英等国科学家宣布测出拟南芥基因组的完整序列(The Arabidopsis Genome Initiative ,2000),这是人类首次全部破译高等植物的基因序列。2002 年是水稻基因组学研究取得重大成就的一年,首先中国的科学家和Syngenta 公司的科学家分别发表籼稻和粳稻基因组“工作框架图”,继后日本和中国的科学家又分别公布了粳稻第1号和第4号染色体的全序列以及籼稻粳稻基因的“精细结构图”,被认为是基因组学研究的又一个重要里程碑。
基因组密码的破译,拉开了生命科学研究的序幕,但是,要真正揭示生命活动的奥秘,基因组研究本身又无能为力。因为,基因组仅仅是遗传密码和遗传信息的载体,在生命活动的不同过程中恒定不变,不能反映有机体在生命活动过程中基因表达的时空关系和网络调控。在后基因组时代,研究重心转移到基因功能的解析,即利用结构基因组所提供的信息和高通量的实验手段在转录组和蛋白质组水平上系统地分析基因的功能。
数据挖掘的概述
2.1 数据挖掘的概念
什么是数据挖掘呢?首先可以了解一个有名的例子,即上个世纪
文档评论(0)