面向Big Data数据处理技术概述.docVIP

下载本文档

3
0
约5.5千字
约 10页
2018-06-08 发布于福建
举报
版权申诉

面向Big Data数据处理技术概述.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向Big Data数据处理技术概述

面向Big Data数据处理技术概述　　摘要：无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据，数以亿计用户的互联网服务时时刻刻在产生巨量的交互。Big Data作为一个专有名词成为热点，归功于近年来互联网、云计算、移动和物联网的迅猛发展。针对现阶段业务需求和竞争压力对Big Data处理的实时性、有效性的高要求，本文在介绍面向Big Data处理方面的主要问题和难点的基础上，将现有的各种方法概括为两类并分别进行了阐述和分析，最后指出了该领域可能的发展方向。　　关键词：Big Data 数据处理　　中图分类号：P208 文献标识码：A 文章编号：1007-9416（2012）03-0000-00 　　1、引言　　在如今或不久的将来，企业将完全淹没在浩瀚的海量数据中。PB字节的数据[1]以难以想象的速度通过不同的设备被收集起来，无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据，数以亿计的用户通过互联网服务时刻在产生巨量的交互。哈佛商业评论把人们使用和互动的社会网络导致大量实时和档案资料的现象称之为“数据革命”。　　在信息技术领域，Big Data[2]。包含那些由于迅速增长使得无法通过现有的数据库管理工具进行管理的大规模数据集。分析师可以通过对这些数据的分析来预测商业趋势，预防疾病，打击犯罪等[3]，社会学家和研究人员用于预测失业、流感爆发、旅游消费和政治观点等，相比通过政府或民意调查报告，该方式快速、准确和廉价的特点使得对Big Data处理的需求不断增长。　　从企业的角度来说，日益增长的信息已经很难存储在标准关系型数据库甚至数据仓库中，包括导致在实践中存在多年的难题。例如：怎样查询一个十亿行的表？怎样跨越数据中心所有服务器上的所有日志来运行一个查询？更为复杂的问题是，大量需要处理的数据是非结构化或者半结构化的。　　在Big Data场景下，要处理的数据量增长速度快、容量大，而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求，传统的常规技术手段根本难以应付。Gartner预测，到2015年，超过85%的财富前500大企业，无法善用Big Data分析后的数据以增加企业的竞争优势。带来的问题覆盖了从获取、存储[4]???搜索到共享、分析[5]以及可视化整个生命周期。Big Data所涉及的技术领域包括大规模并行处理（MPP）数据库，数据挖掘网格，分布式文件系统，分布式数据库，云计算平台，互联网以及可伸缩的存储系统等，吸引了学术界的研究兴趣，工业界也在不断的在产品中突破创新，应对Big Data带来的挑战。　　本文通过对过去和当前面向Big Data的数据分析方面的研究进行了回顾，概括为分布式处理技术和基于GPU的大规模处理技术两方面，前者是在传统的基于CPU的计算机体系架构上，通过缓存、分布式处理技术等提升应对大规模数据处理的鲁棒性、伸缩性，提高数据分析算法的效率；后者则采用GPU并通过数据分析算法进行调整和优化，探索最优化的方法来提高数据运算和处理效率。　　2、分布式处理技术　　2.1以Greenplum为代表的分布式数据库　　Greenplum[6]数据引擎软件专为新一代数据仓库所需的大规模数据和复杂查询功能所设计，基于MPP（海量并行处理）和Shared-Nothing（完全无共享）架构，基于开源软件和x86商用硬件设计（性价比更高）。支付宝公司在国内最早使用Greenplum数据库，将数据仓库从原来的Oracle RAC平台迁移到Greenplum集群。Greenplum强大的计算能力用来支持支付宝日益发展的业务需求。　　2.2以GFS为代表的分布式文件系统　　Google GFS[7]是分布式文件系统的典型代表。基于大量安装有Linux操作系统的普通PC构成的集群系统，整个集群系统由一台Master（通常有几台备份）和若干台TrunkServer构成。GFS中文件备份成固定大小的Trunk分别存储在不同的TrunkServer上，每个Trunk维护多份拷贝，也存储在不同的TrunkServer上。Master负责维护GFS中的 Metadata，客户端先从Master上得到文件的Metadata，根据要读取的数据在文件中的位置与相应的TrunkServer通信，获取文件数据。　　在Google的论文发表后，诞生了Hadoop[8]。截至今日，Hadoop被很多中国最大互联网公司所追捧，百度的搜索日志分析，腾讯、淘宝和支付宝的数据仓库都可以看到Hadoop的身影。Hadoop具备低廉的硬件成本、开源的软件体系、较强的灵活性、允许用户自己修改代码等特点，同时能支持海量数据存储和计算任务。　　2.省略开发的一套分布式内存对象缓