基于Hive的大数据在线分析处理.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于Hive的大数据在线分析处理

?

?

陈耀旺+朱宁+施扬朋

摘要:随着传统行业与互联网的快速匹配,企业面对大量堆积的业务数据和用户数据而无从下手,用户的查询需求也越来越复杂且涉及跨库、跨表的大数据量综合分析查询,传统关系型数据库的方式已无法满足企业大数据在线分析处理的要求。文章提出基于Hive的大数据在线分析的系统架构,研究数据仓库的主题构建、多维分析以及数据可视化的综合分析处理方案,满足在线查询分析结果的用户需求,相比于传统数据库的OLAP方案,查询的时间效率得到显著提升。

关键词:Hadoop;Hive;数据仓库;在线分析

:TP399文献标志码:A:1006-8228(2018)01-01-03

OnlineanalyticprocessingofbigdatabasedonHive

ChenYaowang1,ZhuNing2,ShiYangpeng2

(1.HangzhouDianziUniversity·SchoolofComputer,Hangzhou,Zhejiang310018,China;2.ZhejiangTopcheerInformationTechnologyCo.,Ltd)

Abstract:AlongwiththetraditionalindustryandtheInternetfastmatching,enterprisesfacelargevolumesofbusinessdataanduserdatabutcannothandle,theusersqueryrequirementsaremoreandmorecomplexandinvolvecomprehensiveanalyticalqueryoflargecross-databasedata,thetraditionalwayofusingrelationaldatabasehasbeenunabletomeettherequirementsofenterprisesonlineanalysisandprocessing.Inthispaper,thesystemarchitectureofonlinedataanalysisbasedonHiveisproposed.Thethemebuildingandmultidimensionalanalysisofdatawarehouse,andthecomprehensiveanalysisofdatavisualizationarestudiedtomeettheneedsofonlinequeryandanalysisoftheresults.ComparedwiththeOLAPoftraditionaldatabase,thequerytimeefficiencyhasbeensignificantlyimproved.

Keywords:Hadoop;Hive;datawarehouse;onlineanalysis

0引言

隨着传统行业与互联网的快速匹配,运营模式迭代更新与用户量的飞速增长,企业面对大量堆积的业务数据和用户数据无从下手,在处理TB级别以上的数据,传统的关系型数据库在扩展性方面有一定的局限性,对于企业海量数据的存储和在线分析的需求已经无法满足,这是各行各业急需解决的问题。

1现状分析

随着数据库的广泛应用,企业的数据海量增长,用户的查询需求也越来越复杂且涉及跨库跨表的大数据量的综合分析查询。同时数据仓库和商业智能(DW/BI)行业[1]逐渐成熟,商业智能主要是数据仓库、多维分析技术[2]、可视化技术的综合应用。

联机分析处理(OLAP)是数据仓库[3]系统重中之重的应用技术,用于服务繁琐的分析操作,按照决策者的业务需求,从初始的数据转换到能够展现企业真实面貌的多维特性数据,使用户能准确、迅速、一致的从多角度对信息和数据进行分析处理,并且能够依据主题构建多维查询,灵活准确的进行大数据处理,直观清晰的展现给决策人员所需的查询处理结果,以便可以直观准确的把握企业各方面的现状。目前的离线数据的解决方案是在Hive数据仓库的基础上的多维分析系统,将多维分析操作利用HQL语句转化成Map/Reduce任务运行以后得到分析结果。

大数据技术不局限于结构化数据,它能处理各种非结构化和半结构化数据,并且整个过程都是基于分布式存储的数据进

您可能关注的文档

文档评论(0)

151****0181 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档