宏基因组分析教程.pptxVIP

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

宏基因组分析

1背景宏基因组分析流程步骤细节23

背景知识简介PARTONE

背景—微生物分析方法对比

背景—概念介绍Metagenomics:元基因组学或宏基因组学,是由Handelman最先提出的一种直接对微生物群体中包含的全部基因组信息进行研究的手段。之后,Kevin等对Metagenomics进行了定义,即:“绕过对微生物个体进行分离培养,应用基因组学技术对自然环境中的微生物群落进行研究”的科学。近年来,随着测序技术的发展,利用新一代测序技术(NGS)研究Metagenomics,能够快速准确的得到大量数据和丰富的微生物研究信息,从而成为研究微生物多样性和群落和特征的重要手段。如:HMP(HumanMicrobiomeProject)人体微生物组计划。EMP(EarthMicrobiomeProject)地球微生物组计划。

背景—研究内容

宏基因组分析流程PARTTWO

流程图实验流程示意图信息分析流程示意图

步骤细节PARTTHREE

1.数据质控1.去除低质量序列:去除质量值≤15的碱基占整个序列40%以上的序列;2.去除含N达到10bp的序列;3.去除接头序列;4.如果存在宿主污染,需与宿主序列使用bwa软件比对后,过滤疑似宿主序列;5.质控后得到cleandata序列,作为后续组装以及基因丰度计算的输入。图1碱基质量值

2.组装-基因预测1.分别对不同样本的cleandata使用SOAPdenovo软件或者Megahit软件进行组装,策略:DBG(DeBrujinGraph),将scaffold从N处(gap)打断,并过滤<500bp的片段,得到scaftigs;2.可选方案-混合组装(目的:尽可能地利用reads):将cleandata比对到组装后的contig,将所有样本中未比对上的cleandata序列合到一起进行相同参数的组装,有助于获得低丰度物种序列;3.对组装结果使用MetaGeneMark软件进行基因预测得到ORF,合并所有预测的ORF通过CD-HIT去冗余,得到基因集的核酸序列以及蛋白质序列。A:OLC B:DBG

3.基因相对丰度计算1.分别将不同样本的cleandata使用bwa软件比对到基因集的核酸序列;2.根据比对结果文件,获得每个样本的基因reads支持数,结合基因长度,计算基因相对丰度,公式如图1;3.将所有样本的基因相对丰度表进行合并,得到样本-基因丰度表,图3。图1基因丰度相对丰度计算图2单个样本基因丰度表图3样本-基因丰度表

4.功能注释-KEGG注释KEGG数据库,包括代谢通路(KEGGPathway)、药物(KEGGDRUG)、疾病(KEGGDISEASE)、功能模型(KEGGMODULE)、基因序列(KEGGGENES)及基因组(KEGGGENOME)等;1.使用Diamond软件将基因集蛋白质序列与KO数据库比对;2.根据比对结果使用KOBAS进行KEGG相关注释,获得KO、pathway、EC、Module注释信息;3.结合基因丰度表得到样本-功能丰度表,展现形式:柱形图。右图为KEGG分类图,左侧纵坐标为KEGG代谢通路名称,右侧为5个代谢通路分支,横坐标为注释到该通路的个数。

4.功能注释-eggNOG注释EggNOG数据库由欧洲分子生物学实验室(EuropeanMolecularBiologyLaboratory,EMBL)所管理,是利用Smith-Waterman比对算法对直系同源基因簇(Orthologousgroupsofgenes)进行功能注释,是对COG(ClusterofOrthologousGroupsofproteins)和KOG(EuKaryoticOrtholgousGroups)数据库的扩展和延伸。EggNOG数据库(v4.0)已涵盖来源于3686个物种的超过770万个蛋白,以此构建了包含25类的约170万个直系同源基因簇,且其中超过70%的蛋白都具有对应的功能注释信息。1.使用blastp软件将基因集蛋白质序列与EggNOG数据库比对;2.结合基因丰度表得到样本-功能丰度表,展现形式:柱形图。

4.功能注释-Swiss/TrEMBL注释Swiss-Prot/TrEMBL是由欧洲生物信息学研究所建立的基因序列数据库Swiss-Prot尽可能减少了冗余序列,并与其它30多个数据库建立了交叉引用,其大部分的注释结果都是经过实验验证,因此可靠性较高。由于基因序列数据爆发式的增长,而人工进行数据库注释和

文档评论(0)

iwen博览 + 关注
实名认证
文档贡献者

iwen博览

1亿VIP精品文档

相关文档