基于MPP和Hadoop的低价值密度结构数据联合处理方法的设计与实现.pdfVIP

基于MPP和Hadoop的低价值密度结构数据联合处理方法的设计与实现.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
N 新技术 ew Technology 基于 MPP 和 Hadoop 的低价值密度结构 数据联合处理方法的设计与实现 □侯健卫 杨波 李栓林 刘浩熙 鲁瑞 中国移动通信集团公司山西分公司 【摘要】 针对当前 RDBMS、MPP 等关系型数据管理系统在处理低价值密度数据过程中的诸多不足,提出了一种基于 MPP 和 Hadoop 的海量低价值密度的机构化数据处理方案。该方案通过结合 MPP 和 Hadoop 技术解决了目前处理手段 I/O 性差的问题,并 在很大程度上提高了系统的可扩展性;同时,该方案明显降低了低价值密度数据的分析成本,具有明显的经济意义。实验结果表明: 该方案能够用于处理海量低价值密度数据,解决目前低价值密度数据操作方案 I/O 性能低、读写响应慢、价格高昂等缺点,达到设 计要求。 【关键字】 大数据 低价值数据 Hadoop MPP 随着互联网时代的到来,数据量正以几何级数高速增长 2)针对 OLTP 事务处理和数据挖掘分析的要求,根据不同 [1] 。这些新增数据具有明显的低价值密度的特点,主要表现 应用场景提出不同的低价值密度数据处理方法;3)充分利 为数据总量大、有价值数据含量少 [2] 。低价值密度数据分为 用 Hadoop 体系中 HDFS 和 Hive 的技术特点,提高系统处理 结构化数据和非结构、半结构化数据,其中非结构化、半结 高并发、大规模数据吞吐情况下的处理能力;4)在海量、 构化低价值密度数据可以采用 Hadoop 技术体系 Hbase 等进 低价值密度数据的情况下,实现更加经济、更加符合数据处 行处理,而结构化低价值密度结构化数据大多采用目前主流 理特点的新的技术体系和新的处理方法。 RDMBS、MPP 等关系型数据库进行处理 [3] 。 系统整体设计思路如下:1)采用 MPP 数据库处理小规 目前基于 MPP(大规模并行处理技术)数据库技术在一 模查询类的低价值密度数据操作;2)采用 Hadoop 体系处理 定程度上可以弥补传统关系型数据库当中的不足,但是面对 对低价值密度数据分析类的、大规模、高吞吐量、写多读的 海量、低价值密度数据时,MPP 数据库系统主要表现在优化 操作。 系统性能。MPP 数据库的不足之处主要表现在:1)对于的 1.2 系统结构 低价值密度数据,MPP 体系的价格成本依然较高;2)虽然 在系统结构上,基于 MPP 和 Hadoop 技术的低价值密度 MPP 体系可以提供较快的查询处理速度,但是在高吞吐量时 结构化数据联合处理方法具体结构具体包括:应用系统、混 依然存在较多的问题。3)在数据量非常大或者大规模写入 合引擎、MPP 客户端 /HDFS 客户端 /Hive、MPP 数据库系统 操作时,MPP 数据库延时严重;4)MPP 数据库适合应用于 /HDFS 分布式文件系统、联合数据加载器等。系统整体结构 OLTP 等事务性工作,无法有效的支持大规模非结构化数据 如图 1 所示。 的读写操作。 应用 ODBC JDBC 其它SQL接口 (应用) 针对上述不足之处,本文结合 MPP 数据库特点和当前 流行的大数据体系 Hadoop 的良好的扩展性、I/O 性能的特点, 设计并实现了一种低价值密度结构化数据联合处理方法。 混合前端引擎 一、实现方案 1.1 总体思想 MPP Client HDFS Client Hive数据仓库 结 合

文档评论(0)

1243595614 + 关注
实名认证
文档贡献者

文档有任何问题,请私信留言,会第一时间解决。

版权声明书
用户编号:7043023136000000

1亿VIP精品文档

相关文档