- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中国移动手机阅读BI系统Hadoop技术的应用.doc
中国移动手机阅读BI系统Hadoop技术的应用
【摘要】Hadoop是业界领先的大数据应用平台,是一个利用整个集群资源为大数据集合提供分布式存储和分布式计算处理能力的软件框架。本文讲述Hadoop在中国移动手机阅读BI系统中的应用实例,从而给出一种大数据处理方案的推介。
【关键词】Hadoop;分布式计算;分布式存储
一、Hadoop概念
Hadoop是一个利用整个集群资源为大数据集合提供分布式存储和分布式计算处理能力的软件框架。
Hadoop是基于Google的大数据处理三大技术基石GFS、MapReduce和BigTable设计实现的,核心能力分布式存储、分布式计算分别由HDFS(Hadoop Distributed File System)和MapReduce两大框架提供。
Hadoop是Apache软件基金会下面的一个开源项目;目前Yahoo!是最主要的贡献者(主要社区成员、弱化Google的影响、核心技术未公布);
二、Hadoop计算过程
(1)所有数据以文件方式存在,并将其分割为多个子文件,分割越细并行化越好。
(2)每份数据存在3个副本,以3倍以上的数据冗余换来数据分布式以及安全性。
(3)串行化数据保存,最大限度保持副本一致性。
(4)MAP过程:将一个任务同时在多个数据分片上执行,如果失败则在副本上执行,直到成功,并反馈nameNote节点。
(5)Reduce过程:将Map执行后的中间结果文件通过网络传输至空闲节点,进行Reduce合并计算。如此反复,并将最终结果通过NameNode反馈请求方。
图1 Hadoop计算过程图
三、Hadoop的优势
(1)扩容能力(Scalable):能可靠地存储和处理PB级别数据。
(2)成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
(3)高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。
(4)可靠性(Reliable):hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。
四、手机阅读BI系统架构Hadoop应用方案
手机阅读业务平台BI系统采用刀片服务器(配置成ORACLE RAC)+磁盘阵列架构,随着手机阅读业务地不断发展,BI需要存储和处理的数据量随之快速增加,BI系统现有架构逐渐暴露出一些问题,因此需要BI系统架构升级。
(1)磁盘I/O性能出现瓶颈:手机阅读BI数据仓库架构为刀片服务器+EVA共享存储的方式构建(8台刀片服务器+2套EVA),根据监控数据显示这一架构在峰值时间段磁盘读写IO已达到极限,其他时间段也处于较高负荷之下,IO成为瓶颈随之而来的就是CPU等计算资源的等待和浪费,这一问题会随着手机阅读业务量的增长而日渐加剧。分布式系统可以将数据分散存储,预先将数据分块直接保存在各节点上,避免了频繁的数据流动,磁盘IO问题能得到有效改善。
(2)线性扩展问题:Oracle RAC本身不是分布式架构,需要人工进行数据拆解来进行并行计算提高效率,这样很难做到真正的并行计算和负载均衡;而且Oracle RAC临时空间、存储均为共享,导致节点间通信非常频繁,达到一定规模之后无法再进行线性扩展。分布式计算平台随着数据处理量的增加,可以很好地实现线性扩展。
(3)契合业务发展:手机阅读BI业务特点多为海量数据的离线关联分析计算,随着业务量的增长,存储和计算压力会迅速增大(数据仓库有70T的数据,每天以300G、每月以9T左右的速度在增长),分布式计算平台的批量处理机制很好地契合了这一业务特点,并且提供了非常低廉的横向扩展成本,所以引入分布式计算平台来作为手机阅读BI中海量数据存储和计算能力的支撑平台是非常必要的。
基于以上原因,引入分布式计算平台,BI平台数据仓库由分布式计算平台和Oracle Rac共同搭建,全面支撑上层应用。其中,分布式计算平台提供大数据的高效计算处理,包括数据ETL功能、以及智能推荐、自动服务、内容考核、用户维系、运营分析、营销支撑、门户分析、产品优化等所有底层数据分析挖掘处理;Oracle Rac支撑上层应用中小数据实时性高的交互事务,如报表交互、钻取查询、页面持久化等。
图2 手机阅读BI系统架构
1.BI系统服务器配置需求估算
BI系统服务器需求分为普通刀片服务器及分布式存储服务器两类,其中,普通刀片服务器不作叙述,主要为Hadoop云计算PC服务器配置需求估算:
文档评论(0)