- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
新一代测序技术与高性能计算
新一代测序技术 新一代测序技术能为我们做些什么? 新一代高通量测序技术 新一代高通量测序技术 高通量测序技术带来的挑战和机遇 高性能计算的需求 高性能计算的需求 高性能计算的需求 高性能计算的需求 高性能计算的需求 高性能计算的需求 高性能计算的需求 高性能计算的需求 * * 新一代测序技术与高性能计算 杨建华 中山大学生命科学学院 E-mail: yjhua2110@ 屈良鹄教授 团队 ~400€/Gb 价格 ~2.7 Gb/天 通量 6天 时间 ~80% 可比对到基因组的百分比 ~20Gb ~2.5Gb 原初的核苷酸数目 per run per channel ?Illumina/Solexa Genome Analyzer II / Illumina ~400€/Gb 价格 ~2.9 Gb/day 通量 14 天 时间 ~45% 可比对到基因组的百分比 ~90Gb ~45Gb 原初的核苷酸数目 per run per slide ? ~13k€/Gb~30x 高比 Illumina/SOLiD、 价格 99.5% : 250 碱基读长 99% :400 碱基读长 准确率 400 碱基 序列长度 10 小时 时间 0.4-0.6Gb/run, ~1Gb/天 通量 454 (GS FLX Titanium Serie) / Roche SOLiD 3+ system / Applied Biosystems ~30€/Gb 价格 ~65 Gb/天 通量 5天 时间 ~87% 可比对到基因组的百分比 ~370Gb ~23Gb 原初的核苷酸数目 per run channel ?Illumina/Solexa HiSeq 2000 / Illumina 新一代高通量测序系统能够快速测定数百万标签序列 Kahvejian et al. 2008; Nature Biotechnol., 26:1125-1133 新一代高通量测序系统为目前遗传分析和功能基因组 等热门研究领域的部分热门课题提供了全新的应用方案 发展的新技术 蛋白-DNA 互作(ChIP-Seq 技术) DNA 甲基化(Methyl-Seq 技术) RBP 蛋白的结合位点(CLIP-Seq 技术) mRNA的表达和发现(mRNA-Seq 技术) miRNA 的表达和发现(sRNA-Seq技术) …… 基因组学 基因组测序和重测序(1000 human project) 宏基因组学 表观基因组学 癌症基因组学 …… 新一代高通量测序系统产生了洪水般的数据 美国国立生物技术信息中心(NCBI)因为存储和维护高通量测序数据的成本太高,曾考虑关闭他们的SRA数据库 测序公司: 由于生物信息学的瓶颈,威胁到他们仪器的销售 Bioinformatics bottleneck threatens to limit instrument sales. NGS data 一条不断扩大的鸿沟 生物信息学数据分析能力 可视化数据: human eyes are always better 比对: 如何快速高效地比对这些高通量测序数据到人类等基因组序列 拼接和组装问题: 如何高效的拼接和组装这些高通量测序数据成基因组 存储问题: 如何有效的存储这些高通量测序数据 注释和发现: RNA-Seq, CNV-Seq, SNP, ChIP-Seq McPherson, et al. 2009; Nature Methods., 6:S2-S5 随着基因研究技术进步,生物信息数据的存储计算需求每12到 18个月就会增长10倍,远远高于Moore定律提供的参考数值。 中山大学: 整个集群的全部内存有3888GB,GPU显存762GB,磁盘存储共有79TB,648个CPU内核,254块GPU卡。计算峰值达136T FLOPS。 存储问题如何解决? 普通用户:至少能有100Gb存储空间 特殊用户:甚至需要上1Tb存储空间 内存问题如何解决? 普通用户:至少能有10Gb内存 特殊用户:需要上128Gb内存 拼接和组装基因组 测序:~20Gb/run 全基因组的比较基因组学 拼接和组装基因组 问题:一般用户能分配多少个节点? 问题:每个节点能够获得多少存储空间? 问题:每个节点能够获得多少Gb内存? 生物信息学软件安装 操作系统、编译系统、并行环境 预装软件、操作手册 问题:每个作业的最大运行时间多少? 问题:用户是否有权限安装软件? 问题:是否支持在C/C++、Java、Perl、Python、R等编程语言编写的所有的软件? 问题:是否支持在其它机器编译的可执行文件? 运行速度问题如何解决 普通用户:分配多少核GPU/CPU 特殊用户:需要达到多少核GPU/CPU 快速比对、注释和组装测序
您可能关注的文档
- 故事——北风爷爷您吹吧.ppt
- 敏捷制造与虚拟企业.doc
- 救救孩子,还是救救你自己.doc
- 救援人员和自愿者心理辅导.ppt
- 政法英杰基础理论吴鹏行政法讲义.doc
- 教你一句话说服对方.ppt
- 教你克服演讲恐惧Conquer Fear of Public Speaking.doc
- 教你如何写感谢信thank-you letter.ppt
- 故障分析与判断.doc
- 教你如何抄板protel.ppt
- 2025年全国普法知识考试题库与参考答案.docx
- 2025年中级人民法院劳动审判辅助人员招聘考试笔试试卷(附答案).docx
- 2025年全国青少年“学宪法、讲宪法”网络活动知识竞赛题库及答案.docx
- 2025年中国中医科学院中药资源中心招聘应届生(第二批)笔试高频难、易错点备考题库带答案详解.docx
- 2025年上海戏曲艺术中心招聘工作人员的笔试高频难、易错点备考题库及参考答案详解1套.docx
- 2025年上海市检察系统辅助文员招聘笔试高频难、易错点备考题库及完整答案详解1套.docx
- 2025年上海大剧院艺术中心总部第一季度招聘笔试备考题库及参考答案详解1套.docx
- 2025年上海市法院系统辅助文员招聘笔试高频难、易错点备考题库及参考答案详解.docx
- 2025年上海市房地产科学研究院高层次人才专项招聘笔试高频难、易错点备考题库及完整答案详解1套.docx
- 2025年上海市免疫学研究所招聘笔试备考题库及参考答案详解.docx
文档评论(0)