基于hadoop的数据挖掘算法并行化研究与实现1.1资料.docVIP

  • 8
  • 0
  • 约3.8万字
  • 约 49页
  • 2016-12-04 发布于湖北
  • 举报

基于hadoop的数据挖掘算法并行化研究与实现1.1资料.doc

基于hadoop的数据挖掘算法并行化研究与实现摘要 随着云计算技术的流行,,海量数据已经逐渐将我们包围。数据的不断增长给人们带来巨大价值,也给人们带来了巨大的挑战。已经成为很多大型企业所关注的焦点。 是海量数据处理中较受关注的一个领域,企业通过对,不仅可以,但同时又具有海量,复杂等特点,面对现在飞速增长的,传统采用单机来处理的方式已经逐渐满足不了人们的需求,如何高效率的海量挖掘出有价值的信息,这是本文的一个关注的问题。 Hadoop主要的组件包括HDFS和MapReduce。HDFS是Hadoop集群提供的分布式文件系统,而MapReduce是一种分布式框架,通过这两者的结合,可以对海量的数据进行有效的处理。本文,通过与单机系统处理结果的对比,论证了Hadoop系统时的效率要高于单机目录 基于hadoop的数据挖掘算法并行化研究与实现 1 第一章 绪论 3 1.1 课题研究背景 3 1.2 研究现状 4 1.2.1 Hadoop研究现状 4 1.2.2 文本分类研究现状 5 1.3 本文的主要工作 5 1.4 论文的组织结构 5 第二章 Hadoop分布式框架概述 6 2.1 什么是Hadoop 6 2.2 HDFS分布式文件系统 7 2.2.1 HDFS设计思想 7 2.2.2 名字节点和数据节点 7 2.2.3 块的概念 9 2.2.4文件系统命名空间 9 第三章

文档评论(0)

1亿VIP精品文档

相关文档