基于hadoop的数据挖掘算法并行化研究与实现1.1资料.docVIP

下载本文档

8
0
约3.8万字
约 49页
2016-12-04 发布于湖北
举报

基于hadoop的数据挖掘算法并行化研究与实现1.1资料.doc

基于hadoop的数据挖掘算法并行化研究与实现摘要随着云计算技术的流行，，海量数据已经逐渐将我们包围。数据的不断增长给人们带来巨大价值，也给人们带来了巨大的挑战。已经成为很多大型企业所关注的焦点。是海量数据处理中较受关注的一个领域，企业通过对，不仅可以，但同时又具有海量，复杂等特点，面对现在飞速增长的，传统采用单机来处理的方式已经逐渐满足不了人们的需求，如何高效率的海量挖掘出有价值的信息，这是本文的一个关注的问题。 Hadoop主要的组件包括HDFS和MapReduce。HDFS是Hadoop集群提供的分布式文件系统，而MapReduce是一种分布式框架，通过这两者的结合，可以对海量的数据进行有效的处理。本文，通过与单机系统处理结果的对比，论证了Hadoop系统时的效率要高于单机目录基于hadoop的数据挖掘算法并行化研究与实现 1 第一章绪论 3 1.1 课题研究背景 3 1.2 研究现状 4 1.2.1 Hadoop研究现状 4 1.2.2 文本分类研究现状 5 1.3 本文的主要工作 5 1.4 论文的组织结构 5 第二章 Hadoop分布式框架概述 6 2.1 什么是Hadoop 6 2.2 HDFS分布式文件系统 7 2.2.1 HDFS设计思想 7 2.2.2 名字节点和数据节点 7 2.2.3 块的概念 9 2.2.4文件系统命名空间 9 第三章

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于hadoop的数据挖掘算法并行化研究与实现1.1资料.docVIP