动态代谢组学数据分析方法介绍.pdfVIP

  • 176
  • 0
  • 约2.16万字
  • 约 4页
  • 2019-03-20 发布于辽宁
  • 举报
动态代谢组学数据分析方法介绍事 哈尔滨医科大学公共卫生学院卫生统计学教研室(150081)王文佶张秋菊 曲思杨 谢彪 高兵孙琳刘美娜△ 近年来,代谢组学发展迅速并广泛应用于营养学、 毒理学、疾病诊断等各个领域…。随着研究的深入, 键。此时,迫切需要一类代谢组学数据的分析方法,可 代谢组学所获得的数据集因研究设计的不同而日益复 以在降维的同时捕捉到时间趋势产生的变异,更真实 杂,产生了有时间间隔的动态代谢组学数据。然而目 地揭示数据之间内部结构——动态代谢组学数据分析 前分析此类数据的方法十分有限,并且在大多数情况 方法。 下,这种动态数据所带来的因时间因素产生的变异直 动态代谢组学数据分析方法 接被忽略。据此,本文回顾了现有的动态代谢组学数 据的分析方法并对其研究进展进行介绍。 本文主要从降维的角度对动态代谢组学数据分析 方法进行归纳介绍,包括以下方法:动态主成分分析、 常用代谢组学数据分析方法 动态偏最小二乘法、方差同步主成分分析以及动态概 代谢组学数据最大特点是变量数远远大于观测 率主成分分析方法等。从模型的发展来源、基本原理、 数,且变量之间存在着高度相关性。目前,最常用于代 适用情况及优缺点等方面介绍。 谢组学数据分析的方法有:无监督学习方法的主成分 1.动态主成分分析 分析(PCA)旧J、有监督学习方法的偏最小二乘判别分 动态PCA模型包括两种形式,第一种是由Ku等 析(PLS-DA)J、正交偏最小二乘判别分析(OPLS. DA)等HJ。这些方法可以提取原始信息的最大变异 或在此基础上的最佳解释变异,将高维数据映射到低 对X矩阵进行二次变换,后者是对得分矩阵进行二次 维空间,并给出降维后数据的可视化展示。随着研究 变换。其基本思想是:每个观测在每一个时间点所测 深人,代谢组学不再拘泥于横断面研究,包含时间因素 得的代谢物浓度(位移)不仅由本时间点的测量所决 的动态代谢组数据被越来越多的研究所获得,这使得 定,还受之前时间点影响。所以动态PCA可以看成是 传统分析方法不再适用∞J。以PCA为例,来说明传统 自回归滑动平均外生(ARMAX)的时间序列模型与 分析方法不再适用动态代谢组学数据分析的原因。 PCA模型的结合旧J。定义二次变换矩阵B,= 在动态代谢组学研究中,其数据特点不止是小样 [0,。f。-f)I‘10州],z=0,…,L代表时间滞后,x为 本大变量所带来的高维性,数据中还存在与时间有关 的变异。例如:研究某种干预(药物,毒物等)随着时 的工作原理。 间改变对不同处理组产生的效应是否有差别,并感兴 l 8 趣于找出随时间改变的差异代谢物。若以矩阵每一行 00 1 0 0 00 2 9 3 10 代表代谢组学数据每一个样本的观测时间点,列代表 0 0 0 1 0 O0 3 4 11 代谢产物进行PCA,在不断进行行间打乱后,会发现 0 O O 0 l O0 4 5 12 BoX= 原始得分矩阵z始终等同于打乱后的得分矩阵zr,原 OO 00 0 l O 5 6 13 始载荷矩阵P。始终等同于打乱后的载荷矩阵P,[6]。 0 0 00 0 0 1 6 m¨心B 7 14 这说明PCA盲于观测之间因时间因素产生的自相关 7 M 变异,若生硬地把所有时间点的数据同时进行主成分

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档