基于Spark的联机分析处理的研究-计算机软件与理论专业论文.docxVIP

下载本文档

10
0
约5.22万字
约 68页
2018-12-18 发布于上海
举报
版权申诉

基于Spark的联机分析处理的研究-计算机软件与理论专业论文.docx

1、本文档共68页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Spark的联机分析处理的研究-计算机软件与理论专业论文

独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名：日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□ ，在年解密后适用本授权书。本论文属于不保密? （请在以上方框内打“√”）学位论文作者签名：指导教师签名：日期：年月日日期：年月日摘要联机分析处理系统使决策者能对企业的历史数据进行多维分析，为企业发展做出更好的决策。依托于分布式计算框架实现的关系型联机分析处理系统中，多表连接是影响联机分析处理系统性能的关键因素。研究如何根据用户的使用习惯，重用耗时的多表连接结果的方法，对关系型联机分析处理系统整体性能的提高，具有重要意义。在分析了基于分布式内存计算框架 Spark 的联机分析处理系统的设计要求的基础上，通过对比现有联机分析处理系统的体系结构，给出了基于 Spark 的联机分析处理系统的体系结构。该结构可以划分为应用层、驱动层、服务器层、计算层和存储层；其主要的功能模块包括维度表处理模块、事实表处理模块和多维分析执行模块等。在多维分析处理方面，使用 Spark 处理维度表和事实表时都只读取与此次查询有关的列，减少分布式计算框架 Spark 计算的数据总量；对维表进行按层次的编码处理，通过将有层次信息的层次编码替换事实表的外键，生成有层次信息的编码事实表；使用 Spark 可重用工作数据集的特性，将有层次信息的编码事实表缓存起来，使接下来的多维分析可重用有层次信息的编码事实表，有效的减少了联机分析处理中的多表连接操作。对比实验表明，基于 Spark 的联机分析处理系统在连续执行涉及维度相同的多维分析语句时，能够很好的重用维度表和事实表的连接结果，在整体执行效率方面与基于 Hive 和基于 Spark SQL 的联机分析处理系统相比较有一定的提高。关键词：联机分析处理，分布式，编码事实表，层次编码 Abstract Online analytical processing system help decision makers to handle multi-dimensional analysis of the historical enterprise data, so that they can make better decisions for enterprise development. Depending on the relational online analytical processing system of distributed computing framework multi-table joins are the key factors of Online Analytical Processing System Performance. Researching on how to reuse the results of multi- table joins according to the users habits, to improve the overall relational online analytical processing system performance is significant. Based on the analysis of the distributed computing framework Spark which is the memory online analytical processing system, and compare to other online analytical processing system architecture, an online analytical processing system based on Spark is introduced. . The architecture can be divided into the application layer, the driver layer,