- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
海量多维数据的存储与查询研究-计算机工程与应用
Computer Engineering and Applications 计算机工程与应用 2016 ,52(13) 25
海量多维数据的存储与查询研究
宋爱波,万雨桐,贡 欢,薛荧荧
SONG Aibo, WAN Yutong, GONG Huan, XUE Yingying
东南大学 计算机科学与工程学院,南京 211189
School of Computer Science and Engineering, Southeast University, Nanjing 211189, China
SONG Aibo, WAN Yutong, GONG Huan, et al. Research on storage and query of large-scale multidimensional data.
Computer Engineering and Applications, 2016, 52 (13):25-31.
Abstract :The OLAP (Online Analytical Processing )system built on warehouse is the most popular tool to analyze
large-scale multidimensional data. With the development of information technology, data volume grows rapidly and data
structure becomes more and more complicated, so the performance of OLAP system has dropped severely, failing to meet
daily data analysis needs. This paper proposes new methods to store large-scale multidimensional data and perform aggre-
gation query with Hadoop, a parallel computing system. The paper implements a new column-store format HCFile (HDFS
column file ), and proposals a new storage solution based on it. This project can improve the efficiency of aggregation,
with a good scalability. Meanwhile, this paper leverages the hierarchy schema to build dimension hierarchy index, and uses
MapReduce to perform efficiency aggregation query. Through comparison experiments with Hive, it proves that the proposed
storage solution and aggregation query can effectively improve the efficiency of large-scale multidimensional data analysis.
Key words :large-scale multidimensional data; Hadoop; data index; aggregation query
摘 要:基于数据仓库的OLAP 系统是当前海量多维数据分析的主要工具。随着信息技术的发展,海量多维数据的
规模急剧增长,结构日益复杂,OLAP 系统的性能严重下降,已经无法满足人们的数据分析需求。基于分布式计算系
统Hadoop 给出了新的海量多维数据的存储方法和查询方法。设计了HDFS 上的列存储文件格式HCFile ,基于
HCFile 给出了海量多维数据存储方案,该方案能够提高聚集计算效率,并有很好的可扩展性。同时,利用多维数据
的层次性语义特征,设计了维层次索引,并给出了利用维层次索引和MapReduce 进行聚集计算的方法。通过和Hive
的对比实验,表明了数据存储方案和查询方法能够有效提高海量多维数据分析的性能。
关键词:海量多维数据;Ha
您可能关注的文档
- 毕节质监局双公示台账-贵州.DOC
- 民办学校分类管理的动因目标与实现路径-中国教育干部网络学院.PDF
- 民办非企业-启创.PDF
- 民俗体育文化在社会治理中的作用研究-体育科学.PDF
- 民办非企业单位-河南社会组织.DOC
- 民办非企业单位-衢州民政局.DOC
- 民办非企业单位成立登记办事指引-天河区.DOC
- 民办非企业单位法人登记申请表-北京民政局.DOC
- 民办非企业单位法人章程示范文本-深圳现代创新发展研究院.DOC
- 民办非企业单位法人章程示范文本-昆山政府.DOC
- 2025年金肯职业技术学院单招职业适应性测试题库带答案.docx
- 2025年钦州幼儿师范高等专科学校单招综合素质考试题库完美版.docx
- 2025年钟山职业技术学院单招职业适应性考试题库参考答案.docx
- 2025年金华职业技术学院单招职业技能测试题库附答案.docx
- 2025年闽南理工学院单招职业技能测试题库审定版.docx
- 2025年闽南理工学院单招综合素质考试题库审定版.docx
- 2025年闽南理工学院单招职业倾向性考试题库汇编.docx
- 2025年闽南理工学院单招职业倾向性考试题库推荐.docx
- 2025年闽北职业技术学院单招综合素质考试题库1套.docx
- 2025年长沙轨道交通职业学院单招职业技能考试题库一套.docx
最近下载
- 工业机器人安装与调试技术PPT(高职)全套全套教学课件.pptx VIP
- 2023年青海师范大学计算机科学与技术专业《计算机系统结构》科目期末试卷A(有答案).docx VIP
- 青海师范大学《算法设计与分析实验》2021-2022学年期末试卷.doc VIP
- 《甲状腺的超声检查》ppt课件.ppt VIP
- 甲状腺超声检查课件.ppt VIP
- 规范甲状腺超声检查培训课件.pptx VIP
- 青海师范大学《算法设计与分析》2022-2023学年期末试卷.doc VIP
- 创新思维与能力培养课件.ppt VIP
- 规范甲状腺超声检查.PPT VIP
- 青海师范大学《算法设计与分析》2021-2022学年期末试卷.doc VIP
文档评论(0)