- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
科研和生产一线该如何选择云平台要更多从数据维度思考-英特尔
科研和生产一线该如何选择云平台 ?要更多从数据维度思考
此前的“全球百场客户会议讨论云战略 :‘多云’才是打开云计算的正确姿势” (请
附加这篇文章的链接 )一文 ,已经介绍了“多云”的理念 ,并分享了企业用户正
力图基于自身业务和应用负载的特性及需求来为其灵活选择云平台的趋势。那
么本文的目标,可能就要更加集中在哪些工作在科研和工业生产一线的企业或
用户,谈谈他们应该如何基于多云理念,为自己选择更适用的云平台和云战
略。
其实这一点 ,在前文谈到的英特尔发布的《在公有云、混合云和私有云间合理
放置工作负载》白皮书中已有涉及 :从相关工作负载涉及的数据量、集成、安
全和性能的四个技术特性维度来看,科学、学术研究、工程和数据分析类的应
用,似乎更适合置于私有云中。
或许这也正是一些公有云服务提供商致力于开发数据分析即服务(DAaaS ),高
性能计算即服务(HPCaaS )但却进展有限的原因。以大洋彼岸的协作式癌症云
(Collaborative Cancer Cloud ,简称CCC )为例,它是美国俄勒冈健康科技大
学奈特癌症研究所正在部署的一个精准医疗云平台,目前已经在三个地点部署
了一期系统 ,分别是位于波士顿的DANA-FARBER 癌症研究所 ,多伦多的
OICR 癌症研究所 ,以及奈特癌症研究所,虽然分处三地,但却是一个实打实的
私有云平台。
同样,由麻省理工学院、哈佛大学、波士顿大学、西北大学和马萨诸塞大学五
所研究型高校共同研发的 Massachusetts Open Cloud 在推进中也没有选择纯
粹的公有云平台 ,他们的策略是,在同一个数据中心内、同一个云平台之上,
让各个层面的技术提供商都可以公平竞争和提供服务。由此,你能想象出AWS
上有几十种虚拟机、几十种数据库、几十种存储系统供用户选择的情景吗?
同样是来自科研领域对云平台的需求,却是如此的不同,一个采用绝对的私有
云,另一个却嫌现在的公有云还不够开放 ,还需要进一步调校。
或许这就是“多云”之“多”的精髓所在 ,这个多不是指用户一定要同时选择或使用
多种云部署方式或云平台(公有、私有和混合),而是指不要给自己设限,要在
多种选择中选择合适自己不同业务及工作负载需求的云平台,正如英特尔白皮
书指出的:目前并不存在某个所谓最佳的云模式或服务集能够适用于所有企业
和机构,相应的优化工作才能够帮助企业从每种方法中获得最佳优势。对于科
研和生产制造一线的客户来说,数据量大、敏感度高,需要及时处理和利用,
需要安全的存储、传输或迁移是他们面临的共同挑战,因此在制定“多云”战略
时,就需要更多地从数据维度来思考。
科研用户选云:要充分考虑数据的体量及敏感性
从数据的维度考虑云战略和云平台的选择,前文提到的 CCC 云平台就是这样做
的。该平台的目标在于推进癌症领域的精准医疗科研,按俄勒冈健康科技大学
奈特癌症研究所生物物理肿瘤学副主任 Joe Gray 博士的话说 ,他们要尝试实现
两个目标:提供针对不同癌症定制的治疗方法;支持研究计划识别各种癌症的
抗击机制。
而 CCC 为实现这一目标面临的主要挑战 ,就是要处理规模无比庞大的数据,其
丰富程度也超出想象。在只需做个基因测量就可对癌症进行精确检测的今天,
仅一位患者就可以生成好几个 TB 的信息量。除了基因数据,还有临床数据、
基因数据、各种图像以及有关癌症的生物学信息等等。而且要为每位患者提供
个性化的精准医疗服务 ,就需要建立庞大的数据库,对每位个体所患癌症进行
对比。为了具备足够的统计能力来识别相关模式,必须能够对比 1 万、10 万甚
至数百万患者的癌症,以真正地达到精确性。
问题是 ,如何才能高效地访问和利用全部数据?首先,数据的收集、保护和解
析速度必须足够快,才有助于临床治疗,耗费数月时间去等比对结果对治疗不
利 ,这个过程必须在几天之内完成,事实上奈特癌症研究所与英特尔合作项目
的目标是 ,到 2020 年一切都能在 1 天之内完成。
因此在Joe Gray 博士总结出来的几大挑战中,数据集庞大位列第一,其次是数
据分析和处理速度,再次则是安全性、可扩展性和成本。医疗对于患者隐私的
保护也是重中之重,不同医疗机构之间需要共享数据以制定更加精准的临床治
疗决策,但又要能够保护患者隐私,考虑到道德因素,医疗机构可不希望大家
能够集中访问患者信息。
经过精心设计的 CCC ,最终采用了这样的架构:采用联合计算模式,不再尝试
集中数据,而是支持数据生成机构合理控制数据并协调 ,整合联合计算中心,
允许诸多医疗机构无缝地将计算结果反馈给数据;硬件和开源软件经过优化,
可支持
文档评论(0)