- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因数据分析云上闯关.doc
基因数据分析云上闯关
成本降低与时间缩短,给基因在临床医疗和健康领域的进一步深入应用和普及带来曙光。
最近,第11届国际基因组学大会(ICG)公布了历时6个月的全球公开竞赛结果。
一家从2009年起开展基因检测临床转化研究的初创企业在“数据压缩”和“计算加速”两个项目上刷新世界纪录。这家名为人和未来生物科技的公司从全球300多家参赛团队中脱颖而出获得冠军,并保持最低的计算成本。
“数据压缩”和“计算加速”是对基因数据进行处理分析过程中两个根本性的难题。它们的突破,给基因在临床医疗和健康领域的进一步深入应用和普及带来曙光。
上云的难处
去年起,主流基因数据生产企业开始面临数据爆发式增长的状况。这些自建计算集群来存储和处理数据的企业开始考虑数据上云,并且形成了行业趋势。
“云的架构能保证我们获得很高的数据安全性和稳定性。如果我们自己做本地存储,通常要把数据备两份甚至三份,肯定不如在云上做存储好。”人和未来首席技术官宋卓说。
不过,数据上云过程也遇到棘手问题:庞大的基因数据怎么搬上云?要耗多少时间和成本?上云后,基因数据这类大规模分析项目,根本不是靠简简单单地堆砌机器就能完成高效的计算分析。
“云上计算节点之间有I/O。当你布的节点越多,I/O之间的数据传输就越多。如果你不精细控制,就会形成一大堵“I/O墙”,计算性能大幅下降。这正是基因行业面临的两大难题,也是大赛设定这个比赛题目的根源。
人和未来已经花了两年时间来突破这两大难关。他们开发了“无损压缩”基因数据的新方法,实现了数据快速上云和存储。“我们把所有压缩算法都重新梳理了一遍,找到最好的压缩方式,并在工程技术上做了针对CPU指令集层面的优化”。
在这次大赛上,人和未来将200G测试数据无损压缩到原来的1/15大小,数据传输存储效率自然会大幅提升。
针对数据上云后的计算难题,人和未来基于AWS公有云上的EC2和S3存储和计算基础服务,自主研发构建了数据分发、调控和存储体系,绕过I/O墙。
“我们18分钟完成了对400GB人类全基因组数据的处理。这个级别的数据在单台高性能服务器上分析计算要花30个小时以上,目前世界范围内已报道的云上分布式计算的最好成绩是1小时50分钟。”宋卓说。这是一个质的变化,行业人士对此感到很振奋。
人和未来也希望把在过去两年所研发的计算加速和数据挖掘的应用工具和解决方案,提供给健康信息领域的专业机构。
“这将是一个封装好的,可以跑在任何云上的解决方案。”宋卓说。当然,最先选择基于AWS公有云研发,是因为AWS提供了目前市场上最稳定、丰富和灵活的云计算资源。“在AWS上能够选择的计算节点类型是最多的,这让我们可以根据不同任务类型,选择最高性价比的机器”。而当分析项目从十几台机器到几百台,每上一个层次规模都会触发不同问题,需要AWS较为成熟的支持。
巧用“竞价”
这次参赛,人和未来的基因数据处理和分析费用为16美元,将全基因组计算带入“百元时代”。
对于降低成本的秘诀,宋卓介绍,通常购买云服务,付费方式有两种:一种是按需付费;一种是预付费,一次性先购买一年的服务,成本约是按需付费的六、七折。但是AWS除此以外还提供了SPOT Instance――竞价型实例。AWS将闲置的资源用竞价方式释放出来,价格通常是按需服务的1/10,非常低。
“我们一次用几百个节点,相对是规模比较大的。我们与AWS一线人员交流,他们会告诉我们,在全球的范围内,哪些区域的SPOT Instance价格比较低,在哪个时间段内竞价不会大幅波动。”宋卓说。
人和未来在此次竞赛中巧用竞价模式,最终只花了16美元。
成本降低与时间缩短推动了基因检测技术的实际应用,极具现实意义。2011年前后,基于基因检测技术的的无创唐筛(唐氏儿筛查)被引入临床。与传统羊水穿刺相比,它准确率高且无创。现在,全国每年有100万以上的孕妇选择无创唐筛。它的终端价格是2000元,基本为人们所接受。
目前,人和未来与三甲医院临床疾病和肿瘤相关科室、健康体检和健康管理机构以及保险公司合作,开发相应的检测产品。不过,基因技术要在临床的各种应用中得到普及,需要成本的进一步下降。
宋卓透露,除了后端的分析计算成本外,前端通过基因测序仪生成数据的价格目前仍比较昂贵。如果前端测序价格能进一步降低,就会催生出更多数据。“我估计,测序价格从现在的1000美元降到500美元,基因检测将更深刻的影响社会的医疗和健康产业。这需要两三年时间。”他说。到那时,更多的基因检测将会在临床和大健康行业得到更多应用。
4
您可能关注的文档
- 基于网络化治理的地震灾害群测群防科普宣传路径研究.doc
- 基于网络技术的小学数学教学改革浅谈.doc
- 基于网络探测技术的服务器负载均衡问题研究.doc
- 基于网络教学平台的课程建设方法及实例分析.doc
- 基于网络消费视角的大学生消费问题及对策研究.doc
- 基于网络环境的互动英语教学分析.doc
- 基于老年人使用需求的界面体验设计研究.doc
- 基于翻转课堂模式下高职英语教学探析.doc
- 基于能源路由器的直流配电网设计.doc
- 基于胜任素质的员工培训与人才培养体系建设.doc
- 2023-2024学年广东省深圳市龙岗区高二(上)期末物理试卷(含答案).pdf
- 2023-2024学年贵州省贵阳市普通中学高一(下)期末物理试卷(含答案).pdf
- 21.《大自然的声音》课件(共45张PPT).pptx
- 2023年江西省吉安市吉安县小升初数学试卷(含答案).pdf
- 2024-2025学年广东省清远市九校联考高一(上)期中物理试卷(含答案).pdf
- 广东省珠海市六校联考2024-2025学年高二上学期11月期中考试语文试题.pdf
- 2024-2025学年语文六年级上册第4单元-单元素养测试(含答案).pdf
- 2024-2025学年重庆八中高三(上)月考物理试卷(10月份)(含答案).pdf
- 安徽省安庆市潜山市北片学校联考2024-2025学年七年级上学期期中生物学试题(含答案).pdf
- 贵州省部分校2024-2025学年九年级上学期期中联考数学试题(含答案).pdf
文档评论(0)