06生物基因领域存储技术方案分享.pptx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物基因领域存储技术方案分享生物基因信息系统,存储举足轻重测序仪海量信息采集生物基因应用基因改良冷冻电镜监控\调度\运维生物制药胖节点GPU节点普通计算节点医疗设备精准医疗海量云存储第三方高端体检生物基因信息处理系统基因测序、冷冻电镜都需高效存储运行空间多样业务需求,存储面临极大挑战业务软件多、处理流程复杂给存储系统带来极大挑战弹性存储需求海量数据存储容量带宽保障存储高可用可靠存储需求数据安全性信息反馈速度存储系统延时敏捷存储需求作业运行周期存储系统稳定稳定存储需求曙光ParaStor,构建生物基因应用存储基石突破传统存储瓶颈,面向海量数据、多样IO访问的基因测序、冷冻电镜应用场景,构建全局统一的大规模存储系统基因组拼接/比对/注释/预测/分析/重复序列识别 分布式存储架构:高可靠、易扩展源生并行存储系统:共享、高性能NFS/CIFS/FTP/POSIX/S3/Swift/Restful/HDFS标准X86硬件平台:开放、低TCOParaStor云存储系统完全自主研发:安全可控10年+海量数据市场耕耘EB级,经过验证的国内最大原型系统连续7年IDC市场排名前三曙光ParaStor ,核心技术支撑生物基因应用最高的可靠性最高的性能最高的效能带宽:5GB/节点→TB/系统容量:0.5PB/节点→EB/系统文件:千亿级海量文件管理全空间利用率高达94%构建成本降低45%有效节省能耗20%以上全冗余集群架构任意4个存储设备同时故障30分钟/TB故障修复时间先进技术NAS/Object/HDFS配额权限管理分级存储WORM缓存加速小文件聚合曙光ParaStor,典型生物基因案例科研院所医院高校企业更多典型用户,合作共赢!曙光ParaStor,助力天坛医院建立全国性组学数据库建设高通量基因组学数据处理与智能病理影像识别系统集约建设,打破科室壁垒,实现全院范围的资源共享面向序列对比和序列拼接、医疗影像处理面向测序数据及影像数据的海量存储及备份计算能力423T在线存储7.5PB谢谢(1)生物基因承载着有关生命的孕育、生长、凋亡等过程的全部信息,生物体的生长、衰老等一切生命现象都与基因有关,人类通过基因探索生命科学的脚步从未停歇。然而,对生命科学的探究离不开生物基因信息系统对基因数据的存储、挖掘、管理。这些相关的数据信息主要来源于测序仪、冷冻电镜、医疗设备等,数据信息的巨大规模、复杂结构、快速增长等特点,对信息系统的存储能力、计算能力都提出了非常高的要求,成为许多科研高校院所、医疗卫生机构、生信企业所面临的难题。(2)作为生物信息系统数据的载体,存储系统对基因数据的整个处理流程起着关键作用,像基因测序、冷冻电镜等都需高效存储运行空间。生物基因领域的应用有非常明显的行业专属特点。1是业务软件众多,比如常见的基因拼接、比对、注释、预测、分析、重复序列识别等,每个应用都包含多种软件,整个领域软件成百上千种。2是处理流程复杂, 处理流程可以概况为:产生原始数据;对原始数据进行质量控制和多次预处理(比如比对、排序、重复序列识别等);最后产生有商业或科研等价值的数据。3是运行周期较长,大多应用软件是单计算节点运行,而不是高性能计算里常见的多计算节点并行计算,导致计算时间长业务运行周期长。在长时间的业务流程中既有对带宽要求高的大文件计算、存储场景,又有对IOPS要求高的小文件计算、存储场景,整个处理流程对存储系统的弹性易扩容、可靠性、响应效率、稳定性等带来极大的挑战。(1)曙光自主研发的 ParaStor云存储系统,汇聚了曙光多年以来在高性能计算和海量数据处理方面的丰富经验,解决共享存储系统在性能、可靠性、扩展性、稳定性等方面的关键问题。(2)ParaStor基于标准X86硬件平台为用户提供开放的、低TCO的海量数据存储空间,可以整合分散存储资源,简化海量数据管理。采用分布式全冗余存储架构,整系统无单点故障,确保系统高可靠。采用的内核态的POSIX访问协议,通过InfiniBand高速网络直接进行数据的内存读取,确保了存储系统IO访问的低延迟、高带宽。(3)同时生物基因领域作为HPC行业的细分领域,ParaStor云存储系统针对行业应用的 I/O 特征进行定制化代码级优化,像缓存一致性、IO路径选取,预读、多级缓存等机制提高缓存命中率等方面有大量的经验积累,并做了相关优化工作。(4)此外,ParaStor可以提供丰富的访问接口,其中HDFS访问接口可以为数据的下一步挖掘和分析做准备,比如对来自不同医疗机构的患者信息,包括诊疗记录、电子病历、PACS影像等信息进行大数据分析,可以协助医疗机构实现精准诊疗、提供辅助诊断等服务,实现数据价值的多次利用。(1)在ParaStor众多的产品特性中,分级存储、缓存加速、小文件聚合等高级功能非常适配生物基因行业的应用。针对

文档评论(0)

177****9258 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档