- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
百亿级实时大数据分析项目,为什么不用Hadoop?
百亿数量级的大数据项目,软硬件总体预算只有30万左右,需求是进行复杂分析查询,性能要求多数分析请求达到秒级响应。
遇到这样的项目需求,预算不多的情况,似乎只能考虑基于Hadoop来实施。 理论上Hadoop撑住百亿数量级没问题,但想要秒级响应各种查询分析就不行了。我们先大概分析一下Hadoop的优缺点。
Hadoop
Hadoop目前几乎是大数据的代名词,很多企业都基于Hadoop搭建自己的大数据业务。
以下是Hadoop的主要优点:
1. Hadoop集群的扩展性是其一大特点,Hadoop可以扩展至数千个节点,对数据持续增长,数据量特别巨大的需求很合适。
2. Hadoop的成本是其另一大优势,由于Hadoop是开源项目,而且不仅从软件上节约成本,硬件上的要求也不高。目前去IOE潮流风行,低成本的Hadoop也是一大推手。
3. Hadoop生态群活跃,其周边开源项目丰富,HBase, Hive,Impala等等基础开源项目众多。
那么Hadoop的不足有哪些呢?
Hadoop不适合做实时分析系统。
1. 从通讯层的技术上来说有如下原因:
任务分配Server不会将信息Push到计算Node,而是让计算Node通过心跳去Pull任务。
基于框架的通用性,MapReduce代码也会在HDFS中传送,在各计算Node展开,再通过启动新JVM进程装载并运行。
类似的JVM进程启停有5、6次之多。
Reduce Task只能在全部Map Task完成之后才能启动。
缺乏专业的支持服务
因为是开源项目,缺少专业的商业支持服务,公司需要储备专业Hadoop知识的专家来保证系统的正常运转。
Hadoop可以支持百亿的数据量,但很难应对秒级响应的需求
即使是数亿的数据量,Hadoop也只适合做分钟级别的离线分析系统。
而百亿级别数据量,又需要秒级响应的案例,需要什么系统支持呢?下面介绍下大数据实时分析工具Yonghong Z-Suite。
Yonghong Z-Suite
除了提供优秀的前端BI工具之外,Yonghong Z-Suite让用户可以选购分布式数据集市来支持实时大数据分析。
对于这种百亿级的大数据案例,Yonghong Z-Suite有哪些技术可以保证大数据的实时响应呢?下面大致从技术上介绍下:1. 库内计算(In-Database Computing)Z-Suite支持各种常见的汇总,还支持几乎全部的专业统计函数。得益于计算技术,Z-Suite数据分析引擎将找寻出最优化的计算方案,继而把所有开销较大的、昂贵的计算都移动到数据存储的地方直接计算,称之为库内计算(In-Database)。这一技术大大减少了数据移动,降低了通讯负担,保证了高性能数据分析。并行计算(MPP Computing)Z-Suite是基于MPP架构的商业智能平台,她能够把计算分布到多个计算节点,再在指定节点将计算结果汇总输出。Z-Suite能够充分利用各种计算和存储资源,不管是服务器还是普通的PC,她对网络条件也没有严苛的要求。作为横向扩展的大数据平台,Z-Suite能够充分发挥各个节点的计算能力,轻松实现针对TB/PB级数据分析的秒级响应。列存储 (Column-Based)Z-Suite是列存储的。基于列存储的数据集市,不读取无关数据,能降低读写开销,同时提高I/O 的效率,从而大大提高查询性能。另外,列存储能够更好地压缩数据,一般压缩比在5 -10倍之间,这样一来,数据占有空间降低到传统存储的1/5到1/10 。良好的数据压缩技术,节省了存储设备和内存的开销,却大大了提升计算性能。内存计算得益于列存储技术和并行计算技术,Z-Suite能够大大压缩数据,并同时利用多个节点的计算能力和内存容量。一般地,内存访问速度比磁盘访问速度要快几百倍甚至上千倍。通过内存计算,CPU直接从内存而非磁盘上读取数据并对数据进行计算。内存计算是对传统数据处理方式的一种加速,是实现大数据分析的关键应用技术。
Yonghong Z-Suite相对Hadoop有哪些不足呢?Hadoop能支撑PB级大数据,数千节点的大规模集群。对于Yonghong Z-Suite这种实时大数据分析系统,一般支撑TB~PB级的大数据,节点数一般不超过100。
以下分享一个Yonghong Z-Suite的真实案例:中国移动省分公司数据流量与监控系统
2013年5月,Yonghong收到一个电话线索,客户需要支持几十亿数据量的实时查询与分析,包括数据抓取和存储,让我们先出报价。在实时大数据分析领域,Yonghong的产品和服务是很有竞争力的。不过,当客户拿到我们的报价后,还是觉得比他们的预算贵一些,决定自己招聘Hadoop团队,实
您可能关注的文档
最近下载
- 《解析几何》教案--吕林根,许子道.pdf
- 美国加州桥梁抗震caltrans seismic design criteria vlysis.pdf VIP
- 2025云南省临沧市市级单位公开遴选(选调)工作71人笔试参考题库附答案解析.docx VIP
- HSE保障措施优化及实施方案研究.docx VIP
- 2025甘肃省公路交通建设集团武仙公路收费运营人员招聘61人笔试模拟试题及答案解析.docx VIP
- 2025年秋新鲁科版英语四年级上册全册课件.pptx
- 颚式破碎机技术参数.docx VIP
- 2024河南资本集团“方舟”第三批招聘41人笔试参考题库附带答案详解.pdf
- 《时尚配饰设计》课件.ppt VIP
- 高边坡专家论证PPT汇报材料(中建).ppt VIP
文档评论(0)