- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于MPP和Hadoop低价值密度结构数据联合处理方法设计与实现
基于MPP和Hadoop低价值密度结构数据联合处理方法设计与实现
【摘要】 针对当前RDBMS、MPP等关系型数据管理系统在处理低价值密度数据过程中的诸多不足,提出了一种基于MPP和Hadoop的海量低价值密度的机构化数据处理方案。该方案通过结合MPP和Hadoop技术解决了目前处理手段 I/O性差的问题,并在很大程度上提高了系统的可扩展性;同时,该方案明显降低了低价值密度数据的分析成本,具有明显的经济意义。实验结果表明:该方案能够用于处理海量低价值密度数据,解决目前低价值密度数据操作方案I/O性能低、读写响应慢、价格高昂等缺点,达到设计要求。
【关键字】 大数据 低价值数据 Hadoop MPP
随着互联网时代的到来,数据量正以几何级数高速增长[1]。这些新增数据具有明显的低价值密度的特点,主要表现为数据总量大、有价值数据含量少[2]。低价值密度数据分为结构化数据和非结构、半结构化数据,其中非结构化、半结构化低价值密度数据可以采用Hadoop技术体系Hbase等进行处理,而结构化低价值密度结构化数据大多采用目前主流RDMBS、MPP等关系型数据库进行处理[3]。
目前基于MPP(大规模并行处理技术)数据库技术在一定程度上可以弥补传统关系型数据库当中的不足,但是面对海量、低价值密度数据时,MPP数据库系统主要表现在优化系统性能。MPP数据库的不足之处主要表现在:1)对于的低价值密度数据,MPP体系的价格成本依然较高;2)虽然MPP体系可以提供较快的查询处理速度,但是在高吞吐量时依然存在较多的问题。3)在数据量非常大或者大规模写入操作时,MPP数据库延时严重;4)MPP数据库适合应用于OLTP等事务性工作,无法有效的支持大规模非结构化数据的读写操作。
针对上述不足之处,本文结合MPP数据库特点和当前流行的大数据体系Hadoop的良好的扩展性、I/O性能的特点,设计并实现了一种低价值密度结构化数据联合处理方法。
一、实现方案
1.1总体思想
结合share-Nothing工作模式的MPP数据库系统和Hadoop技术体系的各自优点,实现低价值密度结构化数据的协同处理,以期达到提高数据处理效率、降低数据处理成本的效果。
系统整体设计目标如下:1)利用Hadoop、MPP技术体系优点,实现适合于低价值密度结构化数据的数据处理手段;2)针对OLTP事务处理和数据挖掘分析的要求,根据不同应用场景提出不同的低价值密度数据处理方法;3)充分利用Hadoop体系中HDFS和Hive的技术特点,提高系统处理高并发、大规模数据吞吐情况下的处理能力;4)在海量、低价值密度数据的情况下,实现更加经济、更加符合数据处理特点的新的技术体系和新的处理方法。
系统整体设计思路如下:1)采用MPP数据库处理小规模查询类的低价值密度数据操作;2)采用Hadoop体系处理对低价值密度数据分析类的、大规模、高吞吐量、写多读的操作。
1.2系统结构
在系统结构上,基于MPP和Hadoop技术的低价值密度结构化数据联合处理方法具体结构具体包括:应用系统、混合引擎、MPP客户端/HDFS客户端/Hive、MPP数据库系统/HDFS分布式文件系统、联合数据加载器等。系统整体结构如图1所示。
MPP数据库基于高性能计算的Share-Nothing架构实现,节点主要采用SMP技术,多个SMP节点采用高速网络互联,其具体包括主机节点和数据节点,主机阶段负责管理,而数据节点负责数据处理。
混合前端引擎、联合数据加载处理器是为实现本方法提出的两个新的软件系统,混合前端引擎主要负责对各种应用进行调度处理,而联合数据加载处理器主要负责加载、提取各种原有的大规模低价值密度数据。混合前端引擎其分别通过MPP Client客户端、HDFS Client客户端,以及Hive系统的HQL语言分别和MPP数据库系统、HDFS分布式文件系统、Hive系统接口。
1.3联合数据加载处理器
联合数据加载处理器的核心功能就是从传统的RDBMS数据库、FTP、文件服务器中加载数据到MPP数据库系统、HDFS分布式文件系统、Hive数据仓库。
对于非低密度价值数据,联合数据加载处理器首先加载其到MPP数据库,而对于低价值密度数据,联合数据加载处理器需要分析其具体类型:1)如果是大规模、分析型,那么就需要加载到HDFS分布式文件系统,其通过调用HDFS客户端系统进行处理,同时和Hive系统连接,实现元数据在Hive中的处理;2)如果不是大规模的数据,但是是分析型的数据,如果是文件类型的,其也直接加载到HDFS分布式文件系统,同时,如果其数据类型标志为读操作,则也部署到HDFS分布式文件系统中;3)其他类型数据加载到
原创力文档


文档评论(0)