RedshiftSpectrum架构介绍及最佳实践.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Redshift Spectrum 架构介绍及最佳实践 1 随着数据存储技术的快速发展,众多企业客户可以以低成本存储 PB 级别甚者 EB 级别的数据。这 使得大数据分析在近几年来不但成为现实而且愈发火热。然而真正实现海量数据的分析既要有存储海量数 据的资源,又要有足够强大的分析能力。近年来,我们看到数据分析能力的发展并没有追赶上存储技术的 发展速度 。现实中企业客户虽然有了可以收集并存储大量数据的能力,但很多数据并不能被有效的分析 甚至根本未作任何分析,形成了所谓的暗数据。这使得数据分析能力成为实现大数据分析的真正瓶颈。 作为一个托管的数据仓库服务, Amazon Redshift 从它发布至今已经帮助全球成千上万的客户解决了 PB 级别数据的分析能力,实现了复杂 SQL 的快速查询。但随着数据的飞速增长,我们看到越来越多的客户 数据开始逼近 EB 级别。对于这样体量的大数据,虽然 Redshift 也可以支持快速的复杂 SQL 查询,但 毕竟我们需要启动更多的 Redshift 集群,消耗更多的 CPU 和存储成本,同时还要付出更多的数据加载 时间。相反如果我们为了节省资源和成本把数据放在 S3 上,通过 EMR 集群也可以实现快速低成本的数 据清理,但针对复杂的(诸如 Join 类)的查询速度会很慢,不能很好支持。这形成了一个鱼与熊掌不可 兼得的选择题。 为了真正摆脱数据分析的瓶颈、消灭暗数据,我们的客户需要既能高效执行复杂的查询,又能享受高 度可扩展的数据并行处理,也能利用近乎无限的、低成本的 S3 存储资源,还要可以支持多种常用的数据 格式。满足这种”既又也还”的任性就是我们的新服务 Redshift Spectrum 的使命。 Redshift Spectrum 介绍 Redshift Spectrum 可以帮助客户通过 Redshift 直接查询 S3 中的数据。如同 Amazon EMR ,通过 Redshift Spectrum 客户可以方便的使用多种开放数据格式并享有低廉的存储成本, 同时还可以轻松扩展 到上千个计算节点实现数据的提取、筛选、投影、聚合、 group 、排序等等操作。 Redshift Spectrum 采 用了无服务器架构,所以客户不需要额外配置或管理任何资源,而只需为 Redshift Spectrum 的用量付 2 费。使用方面, Redshift Spectrum 享有和 Amazon Redshift 一样的复杂查询的优化机制、本地数据 的快速读取以及对标准 SQL 的支持。结合上述功能特点, Redshift Spectrum 可以在几分钟内完成对 EB 级别的数据的复杂查询,这使它在众多大数据分析服务中脱颖而出。我们做了一个实验,在对一个 EB 的 数据做涉及四个表的 join 、filter 和 group 的查询时, 1000 个节点的 Hive 集群预估需要耗时 5 年, 而 Redshift Spectrum 只用了 173 秒。 另外 Redshift Spectrum 是 Amazon Redshift 的一个内置功能,所以使用 Redshift Spectrum 对 Redshift 客户现有的查询服务和 BI 工具不会有任何影响。在 Redshift Spectrum 的底层,我们负责管 理着成千上万的跨多个可用区的计算节点。这些节点根据客户查询任务的复杂度和数

文档评论(0)

147****2695 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档