基于MPP和Hadoop低价值密度结构数据联合处理方法设计与实现.docVIP

下载本文档

8
0
约3.69千字
约 8页
2018-08-28 发布于福建
举报
版权申诉

基于MPP和Hadoop低价值密度结构数据联合处理方法设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于MPP和Hadoop低价值密度结构数据联合处理方法设计与实现

基于MPP和Hadoop低价值密度结构数据联合处理方法设计与实现　　【摘要】针对当前RDBMS、MPP等关系型数据管理系统在处理低价值密度数据过程中的诸多不足，提出了一种基于MPP和Hadoop的海量低价值密度的机构化数据处理方案。该方案通过结合MPP和Hadoop技术解决了目前处理手段 I/O性差的问题，并在很大程度上提高了系统的可扩展性；同时，该方案明显降低了低价值密度数据的分析成本，具有明显的经济意义。实验结果表明：该方案能够用于处理海量低价值密度数据，解决目前低价值密度数据操作方案I/O性能低、读写响应慢、价格高昂等缺点，达到设计要求。　　【关键字】大数据低价值数据 Hadoop MPP 　　随着互联网时代的到来，数据量正以几何级数高速增长[1]。这些新增数据具有明显的低价值密度的特点，主要表现为数据总量大、有价值数据含量少[2]。低价值密度数据分为结构化数据和非结构、半结构化数据，其中非结构化、半结构化低价值密度数据可以采用Hadoop技术体系Hbase等进行处理，而结构化低价值密度结构化数据大多采用目前主流RDMBS、MPP等关系型数据库进行处理[3]。　　目前基于MPP（大规模并行处理技术）数据库技术在一定程度上可以弥补传统关系型数据库当中的不足，但是面对海量、低价值密度数据时，MPP数据库系统主要表现在优化系统性能。MPP数据库的不足之处主要表现在：1）对于的低价值密度数据，MPP体系的价格成本依然较高；2）虽然MPP体系可以提供较快的查询处理速度，但是在高吞吐量时依然存在较多的问题。3）在数据量非常大或者大规模写入操作时，MPP数据库延时严重；4）MPP数据库适合应用于OLTP等事务性工作，无法有效的支持大规模非结构化数据的读写操作。　　针对上述不足之处，本文结合MPP数据库特点和当前流行的大数据体系Hadoop的良好的扩展性、I/O性能的特点，设计并实现了一种低价值密度结构化数据联合处理方法。　　一、实现方案　　1.1总体思想　　结合share-Nothing工作模式的MPP数据库系统和Hadoop技术体系的各自优点，实现低价值密度结构化数据的协同处理，以期达到提高数据处理效率、降低数据处理成本的效果。　　系统整体设计目标如下：1）利用Hadoop、MPP技术体系优点，实现适合于低价值密度结构化数据的数据处理手段；2）针对OLTP事务处理和数据挖掘分析的要求，根据不同应用场景提出不同的低价值密度数据处理方法；3）充分利用Hadoop体系中HDFS和Hive的技术特点，提高系统处理高并发、大规模数据吞吐情况下的处理能力；4）在海量、低价值密度数据的情况下，实现更加经济、更加符合数据处理特点的新的技术体系和新的处理方法。　　系统整体设计思路如下：1）采用MPP数据库处理小规模查询类的低价值密度数据操作；2）采用Hadoop体系处理对低价值密度数据分析类的、大规模、高吞吐量、写多读的操作。　　1.2系统结构　　在系统结构上，基于MPP和Hadoop技术的低价值密度结构化数据联合处理方法具体结构具体包括：应用系统、混合引擎、MPP客户端/HDFS客户端/Hive、MPP数据库系统/HDFS分布式文件系统、联合数据加载器等。系统整体结构如图1所示。　　MPP数据库基于高性能计算的Share-Nothing架构实现，节点主要采用SMP技术，多个SMP节点采用高速网络互联，其具体包括主机节点和数据节点，主机阶段负责管理，而数据节点负责数据处理。　　混合前端引擎、联合数据加载处理器是为实现本方法提出的两个新的软件系统，混合前端引擎主要负责对各种应用进行调度处理，而联合数据加载处理器主要负责加载、提取各种原有的大规模低价值密度数据。混合前端引擎其分别通过MPP Client客户端、HDFS Client客户端，以及Hive系统的HQL语言分别和MPP数据库系统、HDFS分布式文件系统、Hive系统接口。　　1.3联合数据加载处理器　　联合数据加载处理器的核心功能就是从传统的RDBMS数据库、FTP、文件服务器中加载数据到MPP数据库系统、HDFS分布式文件系统、Hive数据仓库。　　对于非低密度价值数据，联合数据加载处理器首先加载其到MPP数据库，而对于低价值密度数据，联合数据加载处理器需要分析其具体类型：1）如果是大规模、分析型，那么就需要加载到HDFS分布式文件系统，其通过调用HDFS客户端系统进行处理，同时和Hive系统连接，实现元数据在Hive中的处理；2）如果不是大规模的数据，但是是分析型的数据，如果是文件类型的，其也直接加载到HDFS分布式文件系统，同时，如果其数据类型标志为读操作，则也部署到HDFS分布式文件系统中；3）其他类型数据加载到