一种基于宏基因组模拟数据生物标志物筛选方法.docVIP

下载本文档

17
0
约5.59千字
约 10页
2018-08-13 发布于福建
举报
版权申诉

一种基于宏基因组模拟数据生物标志物筛选方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于宏基因组模拟数据生物标志物筛选方法

一种基于宏基因组模拟数据的生物标志物筛选方法　　摘要：鉴于生物圈中微生物资源的巨大开发潜力以及测序技术不断发展，宏基因组学研究的不断深入，微生物群落已经被看作一个整体来进行分析并且已经得到广泛应用。然而由于微生物的多样性以及微生物菌群的复杂性，使得精确确定和定量宏基因组数据中的分类单元成为宏基因组数据分析的难点。已有的宏基因组数据标记分析工具无法解决微生物群落预测结果重现的稳健性、准确性以及处理非冗余标记物方面遇到的问题。笔者提出了一个新的基于宏基因组自助抽样（metagenomic bootstrap）的生物标志物选择方法，它结合了mRMR（minimal redundancy maximal relevance）和自助抽样方法（bootstrapping），可以更加稳健、准确而有效地通过对宏基因组数据的挖掘实现非冗余标记物的筛选。基于模拟数据集，通过其与2种自上而下的方法（Metastats、LEfSe）以及自下而上的方法（Wilcoxon秩和检验）进行对比，表明本方法可以在较高准确率的基础上更加稳健地选择更多的非冗余生物标志物。　　关键词：宏基因组；生物标志物；mRMR；自助抽样法　　中图分类号： Q789文献标志码： A文章编号：1002-1302（2016）05-0056-04 　　微生物一直被人们视为巨大的生物资源，尤其是其庞大的基因组数据包含有大量不为人知的新功能基因，将对人类的生产、生活做出卓越贡献[1]。然而，微生物资源中九成以上的微生物是不可培养的，也就意味着在新基因探索的道路上，人类面临着不小的困难。新一代测序技术的出现将帮助人们揭示不可（或难）培养微生物的基因组信息，从而发现新的微生物或新的功能基因。随着微生物基因组数据库的不断壮大，人们普遍意识到宏基因组数据分析的难点，宏基因组数据中生物标志物的鉴定以及应用非常重要。但宏基因组数据分析并不简单，研究显示，微生物群落展现出了非同一般的主体间可变性，更不可思议的是，此可变性竟然出现在人类和环境菌群中[2-3]。目前，人们已知的宏基因组生物标志物的鉴定方法有2种：一种是自下而上的方法，主要包括Wilcoxon秩和检验[4]，测试每个分类单元，选择群体间具有差异的元素作为标志物；另外一种是自上而下的方法，主要包括Metastats、LEfSe。虽然这2种方法都可以用来统计评估宏基因组数据的差异，对生物标志物进行鉴定，但这些方法很难解决数据分析结果重现的稳健性、冗余性等问题。笔者提出一个自上而下的结合mRMR[5]和自助抽样法从微生物宏基因组样本中筛选生物标志物的方法，此方法首先分析微生物群落的整体分布，然后进行生物标志物筛选，不同于传统生物标志物筛选的是，它结合了mRMR，能更为有效地避免了生物冗余标志物这一难题。　　1材料与方法　　1.1模拟数据集的产生　　S1模拟数据集：根据文献，微生物群落的分类分布都遵循正态分布，故而基于正态分布，产生模拟数据集S1（S1未列出，仅说明特性，其具体的结构类似于下面即将产生的数据集S3，只是在生成数据时产生的是正态分布的数据，不同分类之间的差异指的是均值差异。）。S1中共有1 000个变量和120个样本，包含2个分类（每个分类包含3个亚类，每个亚类包含20个样本）。对于每一个样本来说，都包含10个真标志物组（10个变量/组）和1个假标志物组（900个变量/假标志物）。数据集S1的特性是真标志物中的2个分类组均值差异较大，在每个分类内部，亚类之间的差异很小（在每个标志物组内，虽然生成数据时没有差异，但是由于随机函数的缘故，差异在所难免）。S2模拟数据集：笔者分析以前本实验室口腔微生物宏基因组数据[6]发现，微生物群落的宏基因组数据的分布不单是正态分布这么简单，往往会有10%的变量符合正态分布和伽玛分布2种混合分布模式，因此基于正态和伽玛混合分布产生模拟数据集S2（表1）。数据集S2有2个重要特性：第一，对于真标志物，2个分类组参数shape（伽玛分布中的1个重要参数）或者均值差异较大，每个分类内部亚类之间的差异较小；第二，对于假标志物，它们在分类、亚类之间均值没有差异（每个标志物组内随机差异如S1所述）。此外，处在相同标志物组内的变量被认为是冗余的变量。S3模拟数据集：根据之前口腔样本数据发现，超过40%的变量仅符合伽玛分布，因此基于伽玛分布产生模拟数据集S3（表2）。数据集S3区别于S2的特性在于真标志物中S3数据集的2个分类组在参数shape上差异较大，在每个分类内，亚类之间的差异较小。　　在真标志物中，一个小方格是一个25（样本）×10（变量）的矩阵。矩阵每一列的值都是由正态分布函数或者伽马分布函数（利用R语言中rnorm或者rgamma函数实现）产生的。表格中填充浅灰色的格子表示由伽马