- 14
- 0
- 约 7页
- 2017-09-14 发布于安徽
- 举报
MapReduce 计算模型改进
刘长征,李威兵**
(哈尔滨理工大学计算机学院)
5
10
15
20
25
30
35
40
摘要:文主要针对社交网站中海量图 片管理的特点,通过采用 Hadoop 技术来实现海量图
片信息的分布式存储,并且根据社交网站中图片信息数据的管理特征,通过对 Hadoop 技术
MapReduce 模型的改进来实现海量图片云存储过程中的负载均衡,从而一方面提高了系统
资源的利用率,另一方面有效提高了系统中图片信息管理的整体性能。
关键词:Hadoop 技术;云存储;分布式处理
中图分类号:TP391.3
The improving of computing model of MapReduce
Liu Changzheng, LI Weibing
(Harbin University of Science and Technology)
Abstract: Article mainly aiming at the characteristics of mass image management in social
networking sites, by using Hadoop technology of photos to the distributed storage of information,
and according to the characters of image information data in the social networking site
management, through the improvement of Hadoop technology graphs model to implement the
mass images cloud storage in the process of load balancing, and improved utilization of system
resources on the one hand, on the other hand, effectively improve the system of information
management of the overall performance of the picture.
Key words: Hadoop technology; Cloud storage; Distributed Processing
0 引言
简由于工作需要,接触了一些大数据处理方面的内容。以前从来没接触过的东西确实很
突然的让人觉得有些为难,不过看了一些资料后还是可以找到一些突破点。
用陈旧的硬件解决海量数据处理的问题听起来是一个笑话,但是在实际工作中却是一个
不得不去面对的问题。并不是所有的公司或者企业都有足够的资金引进新的设备(硬件),
那么唯一的办法就是用软件去解决问题。用什么软件,用什么技术,如何优化,怎么平衡,
看起来虽然繁琐,实际着手去做才发现其实这并不是非常困难的。
首先选择 Hadoop[1]最主要的原因就是因为免费。开源的东西总是可以拿过来就用而且
有丰富的资料去借鉴。Hadoop 尤其适合大数据的分析与挖掘,最为常见的应用就是 Web 数
据分析。因为从本质上讲,Hadoop 提供了在大规模服务器集群中捕捉、组织、搜 索、共享
以及分析数据的模式,且可以支持多种数据源 (结构化、半结构化和非结构化),规模则能
够从几十台服务器扩展到上千台服务器。
Hadoop 拥有无以比拟的灵活性优势和成本优势,这一点 eBay 自动化架构总监 Juhan Lee
深有体会:“根据某种分析的需要将大批非结构化数据转化成结构化数据之后,一旦需求发
生变化,你需要把之前的工作重新做一遍。Hadoop 的内部数据存储能力是 非常重要的,能
在你不知道该如何处理数据的时候尽可能多的保存数据,Hadoop 系统允许你不断的尝试。
而在传统的数据分析系统中,你必须要明确的知道你希望做什么,需要哪些数据。”[2]
作者简介:刘长征,男,计算机应用方向,教授,研究生导师
通信联系人:李威兵(1985-),男,初级职称. dgvttiancaia@163.com
-1-
1 MapReduce 计算模型的改进
在本文所研究的基于云技术的海量图片信息存储系统中,主要从采用 Hadoop 技术来实
现海量图片的分布式存储。而在 Hadoop 计算平台中,Task 是真正的计算核心,应用程序是
45
50
55
60
65
70
75
以 Job 的方式提交运行[3]。在进行图片的分布式计算时,将一个 Job 分解成多个 Task 运行,
而同属于一个 Job 的多
原创力文档

文档评论(0)