- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
代谢组学的数据分析技术
摘要:代谢组学是效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,是系统生物学的组成部分。其研究对象大都是相对分子质量1000以内的小分子物质。先进分析检测技术结合模式识别和专家系统等计算分析方法是代谢组学研究的基本方法。文章主要综述了将代谢组学中的图谱、数据信息转换为相应的参数所采用的分析方法。
关键词:代谢组学;数据分析方法
代谢组学是以代谢物分析的整体方法来研究功能蛋白如何产生能量和处理体内物质,评价细胞和体液内源性和外源性代谢物浓度及功能关系的新兴学科,是系统生物学的重要组成部分,其相应的研究能反映基因组、转录组和蛋白组受内外环境影响后相互协调作用的最终结果,更接近反映细胞或生物的表型,因此被越来越广泛地应用。而代谢组学的数据分析包括预处理和统计分析方法,多元统计分析方法主要分为两大类:非监督和监督方法,非监督方法包括主成分分析PCA;聚类分析CA等;监督方法包括显著性分析、偏最小二乘法等,本文就是主要综述代谢组学图谱信息转化为参数信息所采用的数据分析方法。
1预处理
数据的预处理过程包括以下:谱图的处理;生成原始的数据矩阵;数据的归一化以及标准化处理过程。针对实验性质、条件以及样品等因素采用不同的预处理方法。在实际应用过程中,预处理可以通过实验系统自带的软件如XCMS软件。进行,因此一般较容易获得所需的数据形式。
2数据分析方法
2.1 主成分分析 PCA是多元统计中最常用的一种方法,它是在最大程度上提取原始信息的同时对数据进行降维处理的过程,其目的是将分散的信息集中到几个综合指标即主成分上,有助于简化分析和多维数据的可视化,进而通过主成分来描述机体代谢变化的情况。PCA的具体过程是通过一种空间转换,形成新的样本集,按照贡献率的大小进行排序,贡献率最大的称为第一主成分,依次类推。经验指出,当累计贡献率大于85%时所提取的主成分就能代表原始数据的绝大多数信息,可停止提取主成分。在代谢组数据处理中,PCA是最早且广泛使用的多变量模式识别方法之一。,具有不损失样品基本信息、对原始数据进行降维处理的同时避免原始数据的共线性问题等优点,但在实际应用过程中,PCA存在着自身的缺点[1]:离群样本点的存在严重影响其生物标志物的寻找;非保守性的代谢组分扰乱正确的分类以及尺度的差异影响小浓度组分的表现等,其他的问题之前也有讨论[2]。针对PCA的缺陷采用了不同的改进措施,与此同时,为了简化计算,侯咏佳等[3]。提出了一种主成分分析算法的FPGA实现方案,通过Givens算法和CORD IC算法的矢量旋转,用简单的移位和加法操作来实现协方差矩阵的特征分析,只需计算上三角元素,因此计算复杂度小、迭代收敛速度快。
2.2 聚类分析CA是用多元统计技术进行分类的一种方法。其主要原理是:利用同类样本应彼此相似,相类似的样本在多维空间里的彼此距离应较小,而不同类的样本在多维空间里的距离较大。具体的做法是先将每个样本自成一类,选择距离最小的一对并成一个新类,计算新类与其他类之间的距离,再将距离最小的两类并为一类,直至所有样本都成为一类为止。目前多维空间里的两样本距离的算法主要有:欧氏距离、闵氏距离、马氏距离等,其中以欧氏距离最常用。
2.3 判别分析DA又称分辨分析或分辨法,是在一系列多因子(xi)观测值的基础上,对事物的属性差别进行分类或分辨的统计学法,主要用于定性预测。其基本方法是根据样品的P个测定指标,对一批位置样品进行分类;前提是已知一些样品的分类,然后根据P个测定指标来确定未知样品究竟归属哪一类。在判别分析中,判别函数有最佳型判别函数和固定型判别函数两类。目前,判别分析的准则和方法亦有许多,如马氏距离判别法、Fisher判别法、Bayes判别法、逐步判别法等等。
2.4 偏最小二乘法PLS是SWold和CAlbano等[19] 1983年首次提出的回归方法。它在克服自变量多重相关性的情况下,能对较少的样本量进行建模以及有效的筛选。叶莺等[4]实验证明,与一般最Jb---乘法及PCA相比,PLS计算所得的拟合残差最小,稳定度最高,能改善各变量的作用方向并使其更符合专业解释,成为模型变量筛选的有效工具。其基本原理如下:①将数据进行中心化和标准化,形成自变量和因变量的矩阵;②求协方差矩阵,并根据协方差求其最大特征值对应的特征向量;③通过检验交叉有效性来确定提取成分的个数;④求相应的回归方程及相应的回归系数,最后还原回归模式。
在数据处理过程中,PLS提供了一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量又少时,采用PLS建立的模型具有独特的优点。对于解释变量个数大于观察个体数相当有效[21]。具有PCA、典型
您可能关注的文档
- 从一起案例谈商业秘密司法鉴定问题.doc
- 从不同时期的两个教学案例看幼儿园课程的变革.doc
- 从人性论的角度解读青少年的思想政治教育问题1.doc
- 从关联理论角度看英语广告中隐喻翻译.doc
- 从单词上比较学习英语和德语.doc
- 从妇女社会地位的变迁看英语词汇的变化 (2).doc
- 从城市设计角度分析居住区规划.doc
- 从小学英语教学中培养学生的积极性.doc
- 从教学目标上分析目标是人做事的内在动因.doc
- 从民法理念角度分析.doc
- 北航考试题目及答案解析.docx
- 保研思想政治题目及答案.docx
- 宝安编外考试题目及答案.docx
- 专题 9 完形填空-2023年暑假初升高完美衔接(高一专用)(解析版).docx
- 专题 5 主谓一致-2023年暑假初升高完美衔接(高一专用)(解析版).docx
- 专题 11 书面表达-2023年暑假初升高完美衔接(高一专用)(原卷版).docx
- 专题 7 定语从句-2023年暑假初升高完美衔接(高一专用)(原卷版).docx
- 专题 11 书面表达-2023年暑假初升高完美衔接(高一专用)(解析版).docx
- 考点16 非限制定语从句 高考重点词汇积累 长难句分析(上海专用原卷版).docx
- 专题 6 连词和状语从句-2023年暑假初升高完美衔接(高一专用)(解析版).docx
文档评论(0)