scRNA-seq数据的整合算法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

哈尔滨工业大学应用统计硕士专业学位论文

摘要

单细胞RNA测序数据的研究通常需要整合多个数据集进行分析,实验批

次、实验环境等系统差异的存在,数据集之间可能存在批次效应,直接整合不

同批次的数据集可能产生技术差异掩盖生物差异的问题,从而影响下游分析,

得出错误的生物学结论。因此,去除技术差异,保留真正的生物差异,有效整

合多个批次的异质单细胞RNA测序数据集,是亟待解决的热点和难点课题。

本文提出了一种整合单细胞RNA测序数据集的算法icPCA.该算法旨在识

别所有的变异源,并对全局进行一致的线性降维,同时去除批次效应。本文使

用icPCA算法整合了两套模拟数据集和两套真实数据集,并评估了icPCA算法

整合多个批次的单细胞RNA测序数据集的性能。实验结果表明,icPCA算法

的性能评估指标高于Seurat等主流算法,并且在真实数据集的整合结果中,

icPCA算法保留了Seurat等主流算法未保留的生物学信号。

icPCA算法首先对每个批次的单细胞RNA测序数据集进行预处理,接下

来,对数据集进行降维,在降维空间中对每个批次的细胞进行预聚类,识别未

配对的最近邻细胞,然后将满足预设条件的细胞类型扩充进背景数据集,构建

出包含所有细胞类型的背景数据集,最后对所有批次的数据集和背景数据集进

行icPCA降维整合,得到去除批次效应的整合结果。

总之,icPCA算法能够整合来自不同测序平台的单细胞RNA测序数据集,

并且可以整合较大规模的单细胞RNA测序数据集,同时与Seurat等主流方法

相比具有较好的性能。

关键词:单细胞RNA测序;数据整合;批次效应;对比主成分分析

-I-

哈尔滨工业大学应用统计硕士专业学位论文

Abstract

Thestudyofsingle-cellRNAsequencingdatausuallyrequirestheintegrationof

multipledatasetsforanalysis.Withtheexistenceofsystematicdifferencesin

experimentalbatches,experimentalenvironments,etc.,theremaybeabatcheffect

betweendatasets,andthedirectintegrationofdatasetsfromdifferentbatchesmay

createtheproblemoftechnicaldifferencesmaskingbiologicaldifferences,thus

affectingdownstreamanalysisanddrawingwrongbiologicalconclusions.Therefore,

removingtechnicaldifferences,retainingrealbiologicaldifferences,andeffectively

integratingheterogeneoussingle-cellRNAsequencingdatasetsfrommultiplebatches

arehotanddifficulttopicstobesolved.

Inthispaper,weproposeanalgorithmicPCAforintegratingsingle-cellRNA

sequencingdatasets.Thealgorithmaimstoidentifyallsourcesofvariation,achieve

consistentgloballinea

文档评论(0)

n1u1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档