- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于Hive日志分析的大数据存储优化方法_王正也
网络出版时间:2014-12-25 16:50
网络出版地址:/kcms/doi/10.3969/j.issn.1003-6970.2014.11.020.html
软件 2014 年第 35 卷 第 11 期 SOFTWARE 国际IT 传媒品牌
一种基于 Hive 日志分析的大数据
存储优化方法
王正也,李书芳
(北京邮电大学通信与信息工程学院 北京 100876)
: 从 2002 年起,某金融机构积累了大量的银行卡支付日志数据。随着业务的不断增长,数据集高速增长,原生
的 Hive 的查询性能已经不能令人满意。文章研究了大数据及存储的现状,提出了一种基于存储日志的分析的 Hive 存储格
式优化方法,通过该优化方法从查询时间和存储空间利用率两方面使系统性能得到提升,提升了查询效率。论文对该金融
机构原有 Hive 存储系统通过基于存储日志分析的 Hive 存储格式优化方法进行改进,通过实际数据,充分证明了该方法的
可行性。
: 大数据;Hive;存储优化;列式存储
中图分类号: TP301.6 文献标识码: A DOI: 10.3969/j.issn.1003-6970.2014.11.020
本文著录格式:王正也,李书芳. 一种基于 Hive 日志分析的大数据存储优化方法[J]. 软件,2014,35(11):94100
A storage optimization of the big data based on Hive log analysis
WANG Zheng-ye, LI Shu-fang
(Communication and Information Engineering School, Beijing University of Posts and telecommunications, Beijing 100876, China)
【Abstract 】: Since 2002, a financial institution has accumulated a large number of bank card payment data log .With the
high-speed growth of business and data sets, the query performance of native Hive is not satisfactory. This paper studies the
data and the present situation of the storage. This paper proposes an optimized data storage strategy based on Hive log anal-
ysis. In that way, the optimized Hive will improve the efficiency, shorten the query time and reduce the data storage space
greatly. At last, using the method above, this paper modified Hive warehouse of a domestic financial institution. After test-
ing, there is significantly improvement in the optimized system in terms of a query speed and disk space utilization.
【Key wo
您可能关注的文档
最近下载
- 实施指南《GB21345 - 2024黄磷单位产品能源消耗限额》实施指南.pptx VIP
- 吉林省德惠市第三中学2024-2025学年七年级上学期9月月考地理试题.docx VIP
- 气流干燥器设计说明书.doc VIP
- 《电子商务基础》中职电子商务专业全套教学课件.pptx
- 桶装水项目质量管理方案.docx VIP
- 地震数据采集设备的收放方法、集运箱和车辆.pdf VIP
- 压力管道壁厚及开孔补强计算.xls VIP
- 四五级拼音版 (20220824修订).pdf VIP
- 幼儿园区域留痕培训.pptx VIP
- 2025年贵州省高职(专科)分类招生中职生文化综合考试试卷(英语试题)676.pdf VIP
文档评论(0)