基于大数据分析的分布式MOLAP技术研究.docx

基于大数据分析的分布式MOLAP技术研究.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于大数据分析的分布式MOLAP技术研究

?

?

姜技

摘?要:在计算机系统运行以及研究环节中,会存在大量的规模效应,此类状况难以避免,要想有效解决此类问题,就需要利用分布式的处理方式,开展对文件系统的分析。文章对分布式多维联机分析过程(MOLAP)的数据模型进行了分析,从维编码的算法、映射归约(MapReduce)算法的实现、分析维的遍历算法等方面作深入探讨。

关键词:分布式处理;多维联机分析过程;维编码算法

多维联机分析过程(MultidimensionOnlineAnalyticalProcessing,MOLAP)技术通常是指以MapReduce程序为基础,一般用于加强对计算机系统的处置和管理。在信息数据的多个层次和维度运行中,一般会借助遍历算法以及维编码的直接操作等流程,实现高质量运转。在目前的发展环节,为提高总体的信息技术处置状况质量,需要加强对MOLAP技术的使用。

1??数据模型

MOLAP具体的运行内容分为维和实际状况两个方面。在运行环节,核心部分是探寻在维和事实中所存在的映射联系性。通常情况下,在管理过程中,使用较为传统的ROLAP技术能将数据库和星形模型相连,在发散自身维度信息的过程中,还会实现事实信息的有效存储。采用外键存在联系之内的映射关系反应会增加整体运行效率和成果。但是在实际操作和运行的阶段中,工作人员还需要联合实际性的操作状况,促使操作流程和相对应的运行效率不断提升。首先,在一种多维度的数据运转模型处理过程中,将大量的数据开展分类处理时,维就会将多种偶数据放置在一个含有多种层叠联系的数据构造中,并提供大量和数据之间的运行和筛选方式,核算具体的组织方法。在针对此环节的分析和研究过程中,通常需要事先将维具体内涵开展简化处理工作,实现对多维度数据模型的研究和简化,具体的简化处理工作会受到以下环节制约。例如,设定A为维,则相对应的A含有维层次,但是具体维层次的具体数量会为1,A本质上是一种由多个N维级所构成的一种集合体方式,设定(i∈[1,n])是一种随意的维级别,存在一种维度的属性,含带具体的数值。可以将A视为和其余级别位属性数据相单独构成的一种结构,在具体的同一类型的节点会存在不同子节点数。其次,在度量的设计中,将度量K设定为一种单独的度量,遵循参考维度值方式将其视为在MOLAP环节中所研究的对象,在此环节中,往往会需要将较为细粒程度的度量作为在维度中存在的较小维度值。再次,在单元格的设定过程中,工作人员能够在总体逻辑视图环节中开展详细的分析和研究,单元格本质上是通过不同种类的度量得以展现的,此类度量能够以一种相同的维值作为后期研究对象,所以单元格经常会被视为度量的有效结合体。最后,在数据立方的定义中,会遵循上述的过程,数据立方往往是MOLAP内部所存在的一种多维度构造,是通过多种单元格搭建形成的。块的定义通常是立方数据的思维分析图,其内部每一个数据立方均可以依照维构建不同的数值[1]。

2??维编码的算法

维编码往往会涉及两类形式,分别为二进制编码算法以及十进制的编码算法。二进制的编码算法是采用对多个编码的构造从而展现对多类维信息的概述,利用位移的方式展现对维的遍阅。但是在一般情况下,在此二进制的编码系统内部中会存在个别漏洞,有少部分的设置还不完善。十进制的编码运算较为清晰,有利于工作人员针对个级维的数据进行调整,保障后期的编码运算工作,但是此步骤需要利用编码以及维值内部含带的映射状况作调整。为防止在运行的环节中存在弊端,影响到后期的工作,就应当采用MOLAP技术利用十进制编码算法,从而设定1和维A内存在的个维级别。

在实际的使用环节中,大量的数值均是采用维的数值形式得以展现,比如,在高度以及价格方面,此类数据的模式维会根據所述值域的不同种类开展具体划分形式,多种划分模式内部含有的步长会存在大量维级别。因此,数值的维符合现实约束状况,但是还会存在少量的费数值,涉及多个部门以及城市和相对应的日期等环节。根据实际运行能够得到空值和需要填补的维值数,在同一种关键节点中涵盖相同数量的子节点。工作人员可以根据确切参考日期获得相对应的数据编码结果。在通常情况下,以月级别为前提的每个月天数均会存在差异性,但是在此环节中,要想实现对此种技术的应用和运行,需要加强对此环节的定义,并将具体的设定为每月均为31天的等量。因此,工作人员就会在二月份增加30号以及31号。维在具体的运行环节中均会变得复杂。为提升实际工作的质量和运行效率,需要将其进行转化。维层次的计算和运转方式有多种,涉及维值数法。为满足先前的定义状况,就需要采用上述方式。在技术人员处置的过程中,往往会采用合并以及取舍的方式,促使TCP-H的运行模式有序地进行简化工作,只有将其转变为相对应的星形模块,才会使最后的运算结果符合

文档评论(0)

姜志 + 关注
实名认证
内容提供者

搞茯苓的

1亿VIP精品文档

相关文档