- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据背景下基于Hbase技术的移动统计平台研究
大数据背景下基于Hbase技术的移动统计平台研究
摘要:近些年,受市场因素影响越来越多的开发者有传统的电脑软件开发转而投向手机APP的应用开发。移动应用迎来前所未有的高速发展阶段。想在竞争激烈的APP开发市场中赢得先机,拔得头筹,是很多软件开发者想要做的事情。文章首先分析了开发者要对自身有足够认识,对于自己在市场中所有的表现有所了解,其次,还要了解自身开发软件所具备的优势和劣势,要将自身软件所独有的特点做到了然于心,做到了以上2点才能使开发者自身开发的软件具有足够强的竞争力,在移动应用市场中占有一席之地。要想取胜不仅要做到知己,还要做到知彼,要想做到知彼,需要从用户处获取数据并对数据进行统计计算,考虑到数据量是非常巨大且不一定是结构化的,利用HBase和Hadoop提供的分布式海量存储和并行计算的能力,可以实现对移动应用的统计。
中国论文网 /8/view-7218446.htm
关键词:统计分析;数据挖掘;数据仓库;分析
1引言
当今社会,很多传统行业为了自身发展,适应潮流,纷纷踏入到移动应用这块市场,在这种背景下,催生了大量的手机APP应用。由于手机具有便于携带的特点,手机APP应用就成了人们首选的互联网社交工具,移动社交网络也日益流行。由于社交网络具有灵活随时的特性,所以社交网络禅城的数据模块也越来越巨大。推特、脸书、雅虎等国外著名社交网站,因其巨大的用户使用量,加之随着随着移动互联网宽带技术的不断提高,3G、4G的不断发展,导致用户间、用户和网络服务提供商间的数据传输量非常大。比如通过QQ、微信等即时通信软件发送的图片、视频、语音文件,通过淘宝、京东等购物软件发送的图片、视频、表单等,通过视频网站观看的视频等等。根据著名社交网站脸书官方统计,仅一天该网站的就需要处理约500TB的数据。传统单点高性能的服务器和关系型数据库已无法适应高速增长的数据处理需求,一种新的具有良好兼容性的键值型数据及与之匹配的Distributed multinode计算框架就成为了移动数据分析的首选如图1所示。在这个背景下,一种面向开发者的移动应用数据统计分析平台应运而生。很显然,要做到针对移动应用不同侧面的精细化分析,首先需要获取海量应用的属性信息及相关使用数据,与社交网站的用户数据类似,这些数据也具有规模巨大、高速增长的特点。所以,Key-Value数据库和多节点的分布式计算框架也是移动应用数据统计分析平台的关键支撑技术。
2HBase概述
HBase作为一种开源的、面向列(Column Oriented)的Key Value型数据库,它是Google BigTable在Hadoop框架上的一个具体实现。HBase主要对海量数据的实时读取和聚合计算以及分布式的数据存储和随机访问都有较好的支持。Hbase更像是Bigtable的开源版本。是建立的HDFS技术之上,能够提供高列存储、可伸缩、可靠性、高性能、实时读写的数据库系统。
Hbase是一个分布式开源数据库,基于Hadoop分布式文件系统,模仿并提供了基于Google文件系统的Bigtable数据库的所有功能。
Hbaes的目标是处理非常庞大的表,可以用普通的计算机处理超过10亿行数据,并且有数百万列元素组成的数据表。Hbase可以直接使用本地文件系统或者Hadoop作为数据存储方式,不过为了提高数据可靠性和系统的健壮性,发挥Hbase处理大数据量等功能,需要使用Hadoop作为文件系统,那么就先要了解Hadoop文件系统的基本特性和原理,才能更好地理解Hbase的工作方式。
HBase中的表一般有以下3个的特点:(1)单一的表可以有上亿行,上百万列;(2)面向列(族)的存储和权限控制,列(族)独立检索;(3)对于为空(null)的列,并不占用存储空间,因此,表可以设计得非常稀疏。
3系统架构
一个完整的HBase架构主要包含以下几个部分:
(1)Client:包含访问hbase的接口,client维护着一些cache来加快对hbase的访问,比如regione的位置信息。(2)Zookeeper:保证任何时候,集群中只有一个master;存贮所有Region的寻址入口;实时监控Region Server的状态,将Region server的上线和下线信息实时通知给Master;存储Hbase的schema,包括有哪些table,每个table有哪些column family。(3)Master:为Region server分配region;负责region server的负载均衡;发现失效的region server并重新分配其上的region;GFS上的垃圾文件回收;处理schema更新请求。(4)Region Se
您可能关注的文档
最近下载
- 阿联酋航空介绍(共33张PPT).ppt VIP
- 国企纪委书记竞聘面试题笔试题4套和专业题26问及答案.docx VIP
- 现场仪表 温度仪表WEST 8100+温控器说明书.pdf
- 张正友相机标定法课件.pptx VIP
- 某著名企业供应链咨询构建高效协同的销售与采购供应链战略供应链管理(61页PPT).pptx VIP
- 成人肺功能检查技术进展及临床应用推荐指南(2025版)解读.docx VIP
- 中国徐州PPT课件.pptx VIP
- 第1节 温度 (课件)人教版初中物理八年级上册(39页PPT).pptx VIP
- 船舶结构与货运PPT完整全套教学课件.pptx VIP
- 网络与新媒体概论PPT课件3.pptx VIP
文档评论(0)