基于MPP和Hadoop的低价值密度结构数据联合处理方法的设计与实现.pdfVIP

下载本文档

55
0
约5.9千字
约 2页
2017-08-08 发布于浙江
举报
版权申诉

基于MPP和Hadoop的低价值密度结构数据联合处理方法的设计与实现.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

N 新技术 ew Technology 基于 MPP 和 Hadoop 的低价值密度结构数据联合处理方法的设计与实现 □侯健卫杨波李栓林刘浩熙鲁瑞中国移动通信集团公司山西分公司【摘要】针对当前 RDBMS、MPP 等关系型数据管理系统在处理低价值密度数据过程中的诸多不足，提出了一种基于 MPP 和 Hadoop 的海量低价值密度的机构化数据处理方案。该方案通过结合 MPP 和 Hadoop 技术解决了目前处理手段 I/O 性差的问题，并在很大程度上提高了系统的可扩展性；同时，该方案明显降低了低价值密度数据的分析成本，具有明显的经济意义。实验结果表明：该方案能够用于处理海量低价值密度数据，解决目前低价值密度数据操作方案 I/O 性能低、读写响应慢、价格高昂等缺点，达到设计要求。【关键字】大数据低价值数据 Hadoop MPP 随着互联网时代的到来，数据量正以几何级数高速增长 2）针对 OLTP 事务处理和数据挖掘分析的要求，根据不同 [1] 。这些新增数据具有明显的低价值密度的特点，主要表现应用场景提出不同的低价值密度数据处理方法；3）充分利为数据总量大、有价值数据含量少 [2] 。低价值密度数据分为用 Hadoop 体系中 HDFS 和 Hive 的技术特点，提高系统处理结构化数据和非结构、半结构化数据，其中非结构化、半结高并发、大规模数据吞吐情况下的处理能力；4）在海量、构化低价值密度数据可以采用 Hadoop 技术体系 Hbase 等进低价值密度数据的情况下，实现更加经济、更加符合数据处行处理，而结构化低价值密度结构化数据大多采用目前主流理特点的新的技术体系和新的处理方法。 RDMBS、MPP 等关系型数据库进行处理 [3] 。系统整体设计思路如下：1）采用 MPP 数据库处理小规目前基于 MPP（大规模并行处理技术）数据库技术在一模查询类的低价值密度数据操作；2）采用 Hadoop 体系处理定程度上可以弥补传统关系型数据库当中的不足，但是面对对低价值密度数据分析类的、大规模、高吞吐量、写多读的海量、低价值密度数据时，MPP 数据库系统主要表现在优化操作。系统性能。MPP 数据库的不足之处主要表现在：1）对于的 1.2 系统结构低价值密度数据，MPP 体系的价格成本依然较高；2）虽然在系统结构上，基于 MPP 和 Hadoop 技术的低价值密度 MPP 体系可以提供较快的查询处理速度，但是在高吞吐量时结构化数据联合处理方法具体结构具体包括：应用系统、混依然存在较多的问题。3）在数据量非常大或者大规模写入合引擎、MPP 客户端 /HDFS 客户端 /Hive、MPP 数据库系统操作时，MPP 数据库延时严重；4）MPP 数据库适合应用于 /HDFS 分布式文件系统、联合数据加载器等。系统整体结构 OLTP 等事务性工作，无法有效的支持大规模非结构化数据如图 1 所示。的读写操作。应用 ODBC JDBC 其它SQL接口（应用）针对上述不足之处，本文结合 MPP 数据库特点和当前流行的大数据体系 Hadoop 的良好的扩展性、I/O 性能的特点，设计并实现了一种低价值密度结构化数据联合处理方法。混合前端引擎一、实现方案 1.1 总体思想 MPP Client HDFS Client Hive数据仓库结合