代谢组学研究中数据处理方法的探讨.docxVIP

代谢组学研究中数据处理方法的探讨.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
代谢组学研究中数据处理方法的探讨 代谢组是通过代谢分析的一般方法研究功能蛋白如何产生能量并处理体内物质的结果。代谢物质直接反映了生物化学中的功能。换句话说,代谢组是评价细胞和水体内源性和外源性代谢浓度与功能关系的学科。代谢物组学的出现,特别在药物安全性研究中的应用,认为该新兴的学科分支会对药物安全性研究产生革命性的影响。它与药物的药效和毒性筛选和评价研究、作用机制研究和合理治疗用药密切相关。代谢物组是反应机体状况的分子集合,所有对机体健康影响的因素均可反映在代谢物组中,基因、环境、营养、药物(外源物)和时间(年龄)最终通过代谢物组对表达施加影响。代谢物组是评价健康和治疗的合适的分子集合。因此研究代谢物组学对药物治疗有直接意义。 代谢组学是定量分析生物系统对机体反应或基因改变所产生的动态的、多参数应答的一项新发展的技术。它可有效地应用于生物系统的机制研究及生物系统的生产优化研究中,代谢组学与代谢工程方法的联合在生物工程中的应用已显示出巨大的潜力。代谢组学通常以核磁共振光谱(NMR)或液质联用(HPLC/MZ或GC/MZ)为测量手段,获得的数据(核磁共振图谱、色谱图或质谱图)具有多元性和复杂性,很难直接分析,需要采用模式识别(PR)的方法进行聚类分析和生物标志物(biomarker)的识别。 在代谢组学数据处理中,主成分分析法(PCA)是一种最常用的无导师模式识别方法,但在用PCA进行数据分析时通常存在以下问题。(1)代谢组学数据分析普遍采用的经典PCA方法对离群样本点比较敏感,离群样本点的存在会严重影响聚类结果和生物标志物的寻找结果,然而在代谢组学获得的数据中,由于实验的操作因素或样本本身的原因,经常会有离群样本点存在的现象。(2)一些代谢组分在正常的生理条件下或不同的个体之间有较大的差异,这些非保守性的代谢组分会造成同一类样本在PCA的得分图上距离较远,并且使不同类之间有相互的交叉,难以达到正确的分类,而且这些组分很有可能作为假阳性的生物标志物出现在PCA分析投影图中,使真正的生物标志物在投影图中不易被找出。(3)代谢组学的目的是研究机体所有的代谢物,而不同代谢物可能有较明显的尺度差异,若获得的数据不消除尺度差异直接用PCA的方法进行分析,主成分的选择会受到浓度较大组分的影响,因此聚类分析结果和生物标志物的寻找结果主要是浓度较大的组分决定的,一些浓度小的代谢组分的影响通常体现不出来,而这些小浓度组分往往有很重要的生物学意义。 以上所述问题目前在代谢组学相关的文献中已经提出了一些解决办法。(1)在离群样本点诊断方面,Holmes等提出离群样本点诊断图的方法;在用经典PCA分析中,可以在得分图上画出一定置信度的置信椭球,处在置信椭球外的样品点被认为是不适合利用PCA分析,提示它们可能为离群样本点;对HCA的聚类分析方法得到的树形图观察,也是一种提示哪些样品点为可能的离群样本点的较直观且简便的方法。(2)在非保守性代谢组分的存在会对分析结果产生影响方面,在分类情况已知的情况下,可以用有导师的方法进行研究,利用已知的分类情况进行特征代谢物的提取,以用特征代谢物为指标能达到预期的分类效果为标准,确定哪些是特征代谢物,从而排除了非保守性代谢组分;另有文献提出,对已知分类情况的每一类作PCA分析,若在得分图上同一类样品分布较为分散,则证明有非保守性的代谢组分存在,在投影图上,对主成分贡献较大的组分即为非保守性代谢组分,即使这些组分在对所有的样本进行PCA分析时在投影图上对主成分的贡献也较大,则也不能将他们算作是生物标志物。(3)在解决不同代谢组分之间存在尺度差异方面,可以用尺度同一化的方法包括mean-scale,auto-scale,log等消除不同代谢物尺度差异的影响,使数据的尺度相同,然后再对处理后的数据进行分析。 本文探讨了一些新的方法以求解决上述问题。本文数据处理所采用的原始数据是向发表在Bioin ̄formatics Vol.18 Suppl 2 2002 杂志上的Application of metabolomics to plant genotype discrimination using statistics and machine learning 的作者索取。文中的实验背景是研究Arabidopsis thaliana属植株的基因型为Co10的8个母本植株、基因型为C24的8个母本植株及它们的杂交子代Co10*C24的8个植株、C24*Co10的8个植株的代谢组学,拟通过代谢组学的研究找到这些基因型不同的植株在代谢物方面的主要差异,并找到可以区分不同基因型植株的代谢物水平上的生物标志物。文中的数据处理中直接用PCA方法对原始数据进行聚类分析和生物标志物的寻找分析,结果得分图显示的聚类情况不是很理想,类别之间有明显的

文档评论(0)

hzyacc + 关注
实名认证
文档贡献者

专业的文档设计与制作

1亿VIP精品文档

相关文档