天河超级计算机上生物医药大数据研究..pptVIP

下载本文档

55
0
约2.68万字
约 74页
2018-06-09 发布于浙江
举报
版权申诉

天河超级计算机上生物医药大数据研究..ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

天河超级计算机上生物医药大数据研究.

生物信息学 (Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ)是生物学与计算机科学、信息学及应用数学交叉融合而衍生出的新兴边缘学科。数学用于生物学的研究已有百年的历史 ,但计算机用于生物学的研究则是以分子生物学的发展为契机的 ,目前其主要动力源于分子生物学中的基因组学分支。因为基因组学的研究涉及了海量的且关系复杂的关于ＤＮＡ和蛋白质序列及结构数据的存储、处理和分析 ,所以离开计算机的支持是绝对无法实现的。因此生物信息学当前的主要任务可理解为 :将数学的、计算机科学的和生物学的各种工具应用于基因组信息的获取、加工、存储、分类、检索与分析 ,以阐述和理解基因组学研究获得的大量数据中所包含的生物学意义。由于生物信息学是分子生物学研究的一个非常有用且必不可少的工具 ,所以一些发达国家的政府与科研机构都非常重视 ,纷纷建立相应的机构或部门进行这方面的研究、开发与服务。如美国国家生物信息中心 (ＮａｔｉｏｎａｌＣｅｎｔｅｒｏｆＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ ,ＮＣＢＩ)、欧洲分子生物学网络 (ＥｕｒｏｐｅａｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙＮｅｔｗｏｒｋ ,ＥＭＢＮｅｔ)等 * 生物信息学 (Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ)是生物学与计算机科学、信息学及应用数学交叉融合而衍生出的新兴边缘学科。数学用于生物学的研究已有百年的历史 ,但计算机用于生物学的研究则是以分子生物学的发展为契机的 ,目前其主要动力源于分子生物学中的基因组学分支。因为基因组学的研究涉及了海量的且关系复杂的关于ＤＮＡ和蛋白质序列及结构数据的存储、处理和分析 ,所以离开计算机的支持是绝对无法实现的。因此生物信息学当前的主要任务可理解为 :将数学的、计算机科学的和生物学的各种工具应用于基因组信息的获取、加工、存储、分类、检索与分析 ,以阐述和理解基因组学研究获得的大量数据中所包含的生物学意义。由于生物信息学是分子生物学研究的一个非常有用且必不可少的工具 ,所以一些发达国家的政府与科研机构都非常重视 ,纷纷建立相应的机构或部门进行这方面的研究、开发与服务。如美国国家生物信息中心 (ＮａｔｉｏｎａｌＣｅｎｔｅｒｏｆＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ ,ＮＣＢＩ)、欧洲分子生物学网络 (ＥｕｒｏｐｅａｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙＮｅｔｗｏｒｋ ,ＥＭＢＮｅｔ)等 * 我们在研的生物大数据分析系统基于天河II号超级计算平台实现，提供生物大数据分析服务，包括快速组学数据分析、快速组学数据检索、海量数据标注和海量数据知识发现等生命科学研究中迫切需求的服务。这套系统的特点是，利用大数据分析工具支撑，提供高效率、高质量的服务。这些工具涉及的基本的数学方法，我们把他们包封成一套大数据分析基本数学方法库，可调用该方法库，可以定制用户的应用，更好地服务用户。 * 在TH上完成了移植和算法优化,3倍-50倍的增长. 优点：更精准、时空开销更小 * 在TH上完成了移植和算法优化 * 基因组研究中计算量最大，但也最基本的问题，是基因比对。设想做一次google搜寻就是一次比对任务，而基因组比对要求在1个小时中在一台机器上完成上百亿次的google搜寻，这既便是对于google来说也是一个一直亟待提高的问题。通过充分利用天河一号的GPU资源，SOAP3-dp比世界第二快三倍的速度，却依旧保持着最高的准确度。现在有了天河二号，通过充分利用三块MIC卡协同工作，我们将获得4倍于天河一号的速度，将之前需要一天完成的分析缩短至几个小时。 * 输入数据格式：参考序列（fasta格式）、短序列（fastq格式）输出：比对结果（sam格式）输入数据规模： 90个WGS样本，17.47T 输出数据规模： 31.82T 由于比对过程中短序列之间数据不相关，直接把整个任务分发到932个计算机节点上并行执行。每个计算节点包括两个CPU和三个MIC卡，实验分析发现每个CPU起12个进程，每个MIC卡上起224个线程（56个计算核心，每核4个硬件线程）性能最佳，此时硬件资源使用率最高。测试环境：天河二号单计算节点： CPU：两路12核，两颗 Intel Ivy-Bridge E5-2692 12核 CPU，2.2GHz 三块Intel Xeon Phi 31S1P MIC 众核加速卡，每块MIC卡57核心，1.1GHz 内存：88GB = 64GB （主存） + 24GB （MIC卡，8GB*3） * 输入数据格式：参考序列（fasta格式）、短序列（fastq格式）输出：比对结果（sam格式）输入数据规模： I137_L5(271GB)，I148_L6(530GB) 输出数据规模： I137_L5(443GB)，I148_L6(851GB) 由于比对过程中序列之间数据相关性较低，而且序列分布