- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向gatk最佳实践流水线部署的基础设施-英特尔
白皮书
行业
解决方案关注领域
面向 GATK 最佳实践流水线部署的
基础设施
作者 概述
Abirami Prabhakaran 本文档是英特尔与博德研究所合作开发的参考平台和开展的基准测试工作的指南。基准
设计工程师,英特尔公司 测试工作包括自动化来自博德研究所的 GATK 最佳实践工作流,以及为全基因组和外显
子组中的种系短变异体发现提供系统级分析数据。本文档中收集的数据显示了如何最好
Beri Shifaw
地利用最新的基于英特尔® 架构的平台。
生命科学架构师,英特尔公司
Mishali Naik GATK 最佳实践工作流由两条核心流水线组成,这些流水线将按顺序执行:1) 预处理,
高级技术架构师,英特尔公司 将原始读段处理为分析就绪映射读段;2) 变异体发现,将分析就绪读段处理为变异体。
在从 BWA 到 GATK Haplotype Caller 的工作流中,每样本数据预处理和变异体识别段
Paolo Narvaez
被作为单样本识别流水线予以实施,而在从 GenotypeGVCF 到 ApplyRecalibration
首席工程师,英特尔公司
的工作流中,对一组数据集进行操作的步骤被作为联合分析流水线予以实施。
Geraldine Van der Auwera
外联与通信经理, 这两个流 水线的流 程 均被构建为 Perl 脚本。除了运行这些工具之外,还可以 通 过
麻省理工学院-哈佛大学博德研究所 Workflow Profiler(一个英特尔开源项目,网址为 https://01.org/workflow-profiler )
收集各个工具以及整体流水线的系统级数据。针对这两个流水线,本文档收集并提供了
George Powley 全基因组序列 (WGS) 和外显子组序列 (Ex) 的基准测试结果。
硬件 / 软件架构师,英特尔公司
Serge Osokin GATK 最佳实践工作流
软件工程师,英特尔公司
输入:FASTQ 文件,b37 捆绑包包含参考基因组、Hapmap、Omni、dbSNP、1000G
Ganapati Srinivasa Phase SNP 和 Mills indels。
高级首席工程师,
精准医疗平台主任, 输出:已处理的 VCF 文件(由单样本识别 Haplotype Caller 步骤生成)和已筛选的 VCF
英特尔公司 文件(由联合分析 VQSR 步骤生成)。
工具和技术:BWA、Picard 工具、GATK。
工具版本:以下是截至 2015 年 8 月 11 日为本项目下载的最新版本的工具。
工具 版本 链接
BWA 0.7.12-r1044 /lh3/bwa
PICARD 1.137 /broadinstitute/picard
GATK 3.4-46-g8ea4dca /broadgsa/gatk-protected
表 1. 工具版本
白皮书 | 面向
文档评论(0)