使用HadoopMapReduce解决大数据问题.pdfVIP

下载本文档

0
0
约4.01万字
约 10页
2026-01-28 发布于北京
举报

使用HadoopMapReduce解决大数据问题.pdf

2012NIRMA大学国际工程会议，NUiCONE‑2012，2012年12月6‑8日

使用Hadoop和MapReduce解决大数据问题

阿迪亚·B·帕特尔，马纳什维·比尔拉，乌什玛·奈尔

--企业使用的数据库规模正在以指数级的速度逐日增大数据的规模是一个不断变化的目标，目前从几十太字

长。同时，为了业务决策而处理和分析大量数据的需求也在增节到单个数据集中包含多个拍字节不等[2]。难题包括数

加。在许多商业和科学应用中，需要以高效的方式每天处理数据捕获、、搜索、共享、分析和可视化。当前情况

TB的数据。这导致了由于传统数据库系统和软件工具无法在可下，典型的大数据实例包括网络日志、RFID生成的数据、

接受的时间范围内管理和处理大数据集而产生的大数据问题。传感器网络、和地理空间数据、来自社交网络的社

数据处理可以包括，具体取决于用途，如筛选、标记、

会数据、互联网文本和文档、互联网搜索索引、通话详

高亮显示、索引、搜索、分类等操作。单台或少数几台机器无

细记录、天文学、大气科学、组学、生物地球化学、

法在有限的时间内或处理如此庞大的数据量。本文报告了

关于大数据问题及其最优解决方案的实验工作，使用生物学以及其他复杂和/或跨学科的科学研究、监视、

Hadoop集群、Hadoop分布式文件系统（HDFS）进行，医疗记录、摄影、和大规模电子商务。大

并使用MapReduce编程框架进行并行处理以处理大型数据集。数据的影响包括沃尔玛每小时处理超过100万笔客户，

我们已经对Hadoop集群、HDFS和MapReduce框架进这些被导入估计包含超过2.5拍字节数据的数据库——

行了原型实现，用于处理大型数据集的大数据应用场景原型。相当于国会馆所有书籍信息的167倍，

从各种实验中获得的结果表明，上述方法解决大数据问题的效处理来自用户基数的400亿张等。

果良好。

A.什么是大数据问题？

大数据的出现是因为我们一个越来越依赖数据密

集型技术的社会中。当前大数据的一个特点是使用关系

‑‑大数据问题，Hadoop集群，Hadoop分布式文数据库和桌面统计/可视化软件包处理它时遇到的，

件系统，平行处理，MapReduce反而需要“在数十、数百甚至数千台服务器上运行的大

一、引言规模并行软件”[3]。大型数据管理的各种包括——

可扩展性、非结构化数据、可性、实时分析、容错

在这个电子时代，越来越多的组织着数据的问等。除了不业的数据量差异外，生成和的

题，今天企业中使用的数据库规模正以指数级的速度增数据类型——即数据是否编码、图像、音频或文本/

长。数据通过多种生成，如业务流程、、社交数字信息——也因行业而异[4]。

网络站点、Web服务器等，并以结构化和非结构化的形

式存在[1]。的业务应用程序具有大规模、数据密集

型、面向Web和从包括移动设备在内的各种设备的

企业特性。处理或分析大量数据或提取有意义的信息是

B.大数据技术和技术

一项具有性的任务

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

使用HadoopMapReduce解决大数据问题.pdfVIP