大数据分析平台开发 .pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据分析平台开发

大数据分析平台开发

在数字时代,您选择的大数据分析平台必须满足非常广泛的需求。

小编总结了大数据分析平台必须提供的六大功能,满足您对当前及未

来的需求,提高您的竞争地位,实现卓越的业务成果。

一、它必须容纳海量数据

如果大数据分析平台无法扩展以存储或管理海量数据,那么仅仅

提高速度所带来的作用相当有限。大数据分析平台必须能够容纳海量

数据。

大规模并行处理是用于扩展分析处理的理想技术,因为它同时利

用计算机群集的存储和计算能力。它不仅在性能上有所扩展,而且其

处理传入的大量数据流的能力也相应提高。

此外,被设计为用于处理结构化数据的大数据平台使用MPP,可

进一步加速处理操作,这是因为已针对分析程序优化了结构化数据,

并减少了回答查询所需执行的搜索量。结构化数据库能够更好地了解

数据在数据海洋中的位置,并且可以精确地存取数据。

一般来说,非结构化数据库难以扩展到采用列式设计的结构化数

据库所能达到的级别。但是,大数据分析平台可能整合有能够提高非

结构化数据库的可扩展性和性能的功能。

二、它必须非常快

简单来说,数字时代下,用户不希望在运行查询时长时间地等待

结果。他们期望即时得到满足,获得即时结果,而对其他工作负载没

有影响。这意味着大数据分析平台必须增强现有应用程序的性能,允

许您开发具有挑战性的新分析方法,并提供合理、可预测和经济的横

向扩展策略。

从技术角度来看,要满足这些期望,必须结合列式数据库架构(相

对于基于行的非并行处理传统数据库)和使用大规模并行处理技术或者

说MPP。

理由在于:列式设计可最大限度地减少I/O争用,后者是导致分

析处理发生延迟的主要原因。列式设计还可提供极高的压缩率,相比

于行式数据库,通常可将压缩率提高四倍或五倍。MPP数据仓库通常

按比例线性扩展,这意味着如果您将双节点MPP仓库的空间翻倍,那

么可有效将其性能提高一倍。

列式设计和MPP的结合不仅能够大幅提高性能(通常约100到

1000倍),还可以实现更低且更透明的定价机制,例如针对每TB的模

型而非传统的针对每处理器、每节点、每用户的定价方案。最终结果:

性能呈指数级增长,同时大数据分析处理过程的总成本大幅降低。

三、它必须兼容传统工具

如果您的大数据分析平台依赖于“提取、转换、加载”(ETL)工具

(如Attunity、Informatica、Syncsort、Talend或Pentaho)或基于

SQL的可视化工具(如LogiAnalytics、Looker、MicroStrategy、

Qlik、Tableau和Talena),请确保该平台已经过认证,可与所有这

些工具而不仅仅是主要供应商的工具搭配使用。此外,确保您使用的

所有工具和扩展技术符合最新版本的ANSISQL标准(SQL2011)。四、

它应利用Hadoop并增加Hadoop的价值

Hadoop是由ApacheSoftwareFoundation管理的开源软件平

台,已经成为大数据分析领域中的主要平台。许多数据库专业人员将

Hadoop评估为可解决其原数据仓库系统中存在的分析限制的潜在解

决方案。遗憾的是,他们通常会发现,相对于基于MPP的列式大数据

分析平台,Hadoop在即时查询和SQL分析方面的性

能严重不足。此外,为了支持Hadoop上的数据仓库工作负载,

必须开发新技术和获得新软件,并且在许多情况下还需要雇佣新的人

员。

另一方面,Hadoop在数据分析处理中也提供了少数几个明显的

优势。由于它是数据湖,可在一个位置存储数据,从而节约成本。它

提供了暖存储和冷存储,这种低成本存储可保存可能会用到的数据,

但并不保存日常分析所使用的热数据。它可提供数据发现功能,帮助

您了解数据是否具有商业价值。

通过ETL工具,它可以在数

文档评论(0)

157****7523 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档