生物组学数据论文:生物组学数据 偏最小二乘回归 变量选择 lasso算法 弹性网络算法.docVIP

生物组学数据论文:生物组学数据 偏最小二乘回归 变量选择 lasso算法 弹性网络算法.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物组学数据论文:生物组学数据 偏最小二乘回归 变量选择 lasso算法 弹性网络算法

【关键词】生物组学数据 偏最小二乘回归 变量选择 lasso算法 弹性网络算法 【英文关键词】Biological omics data Partial least squares regression Variable selection LassoAlgorithm Elatic net algorithm 生物组学数据论文:基于稀疏偏最小二乘算法的生物组学数据融合算法研究 【中文摘要】人类基因组计划完成之后,生物学领域中发展起来的各种组学技术把生命科学带进了系统生物学时代,此时,基因组学、转录组学、蛋白质组学、代谢组学等数据呈指数级增长。在这种高通量数据背景下,为了理解目前未知的生物学机制并且获得生物各功能层之间的相互作用,我们需要开发融合各种生物组学数据并且同时给出生物学解释的方法,从而可以描述和预测相关生命过程的生物学功能、生物体表型和行为。各种类型的组学数据由许多变量表征并且一般没有足够多的样本,因此数据的属性变量之间容易存在线性相关现象。我们通常采用基于典型相关分析或偏最小二乘回归(PLS)的方法融合组学数据,因为它们的计算性能比较好。目前流行的稀疏偏最小二乘回归(sPLS)方法在PLS中内置了变量选择过程,并且在融合两组组学数据集和对结果的生物学解释方面有良好的性能,本文对sPLS进行研究并尝试着对其改进。sPLS通过偏最小二乘回归和奇异值分解克服统计数学方面的束缚,并且通过lasso变量选择方法实现方法的稀疏性,在降低试验成本的情况下促进对结果的生物学解释。PLS方法采用主成分分析思想对数据结构进行降维处理并克服了多重相关性的危害,运用典型相关分析思路分析两组变量之间的相关性,它重新筛选数据系统的重要信息并选取对数据系统具有最佳解释能力的几个主成分进行回归建模。lasso(最小绝对收缩和变量选择操作)惩罚方法在回归模型中将影响较弱的变量的系数设置为零,只保留有主要影响的变量的系数,从而在估计回归系数的同时完成变量选择,实现组学数据融合的稀疏性解决方案。通过对lasso方法的研究发现,lasso至多只能选择和样本数量一样数量的变量并且如果需要选出一组相关程度比较高的变量,lasso倾向于只选择其中一个变量并且不在乎选择了哪个变量。因此,对样本数远少于属性变量数量的组学数据进行融合分析时,lasso不是理想的方法。本文中,我们尝试着在sPLS方法中用弹性网络惩罚改进变量选择过程。弹性网络惩罚是一种正规化变量选择方法并且不仅可以成组地选出密切相关的目标预测因子,还能够在全体变量中选择目标变量。弹性网络惩罚通过处理自变量数据集的增广矩阵而将弹性网络问题转化为等价的lasso I司题,得到弹性网络惩罚的一个软门限函数,从而在数据集的权值向量上施加软门限函数可以进行变量选择操作。本文在鼠类肝毒性研究的基因表达数据和肝功能临床数据上实施PLS方法、sPLS方法和改进的sPLS方法,这三个方法都在总体因变量和每个因变量上对自变量数据集做回归分析,本文通过交叉验证方法比较它们的性能。实验结果表明,在PLS方法中引入变量选择环节可以得到更稳定高效的预测效率,并且基于弹性网络惩罚的sPLS方法比原来的方法在选出目标变量方面更有效率。本文只是对生物组学数据融合方法做了基本的实验研究,所研究的sPLS为融合两块组学数据集提供一个非常有用的工具,并且可以对结果提供良好的生物学解释。对于以后的研究方向,可以将sPLS和其他门限规则一起应用,可以考虑sPLS的对称分析版本,还可以尝试使用其他惩罚函数或者改进现有的惩罚函数,比如采用自适应弹性网络惩罚。然而,由于生物过程的复杂性、特殊性和数据的高通量性,sPLS方法尚需要在统计学和生物解释方面做进一步的理论和实践工作。 【英文摘要】Since the completion of HGP(Human Genome Project), multiple developed Omics techniques have brought life science into the system biology era. In the system biology era, technological advances enable the monitoring of an unlimited quantity of omics data outputs from various omics analysis platforms, such as transcriptomic, proteomic or metabolomic data. In order to enable an improved understanding of some underly

文档评论(0)

zhengshumian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档