- 8
- 0
- 约3.8万字
- 约 49页
- 2016-12-04 发布于湖北
- 举报
基于hadoop的数据挖掘算法并行化研究与实现摘要
随着云计算技术的流行,,海量数据已经逐渐将我们包围。数据的不断增长给人们带来巨大价值,也给人们带来了巨大的挑战。已经成为很多大型企业所关注的焦点。
是海量数据处理中较受关注的一个领域,企业通过对,不仅可以,但同时又具有海量,复杂等特点,面对现在飞速增长的,传统采用单机来处理的方式已经逐渐满足不了人们的需求,如何高效率的海量挖掘出有价值的信息,这是本文的一个关注的问题。
Hadoop主要的组件包括HDFS和MapReduce。HDFS是Hadoop集群提供的分布式文件系统,而MapReduce是一种分布式框架,通过这两者的结合,可以对海量的数据进行有效的处理。本文,通过与单机系统处理结果的对比,论证了Hadoop系统时的效率要高于单机目录
基于hadoop的数据挖掘算法并行化研究与实现 1
第一章 绪论 3
1.1 课题研究背景 3
1.2 研究现状 4
1.2.1 Hadoop研究现状 4
1.2.2 文本分类研究现状 5
1.3 本文的主要工作 5
1.4 论文的组织结构 5
第二章 Hadoop分布式框架概述 6
2.1 什么是Hadoop 6
2.2 HDFS分布式文件系统 7
2.2.1 HDFS设计思想 7
2.2.2 名字节点和数据节点 7
2.2.3 块的概念 9
2.2.4文件系统命名空间 9
第三章
您可能关注的文档
最近下载
- X射线诊断和影像学的最新进展.pptx VIP
- 小学生必背古诗75首(可打印) .pdf VIP
- 《城镇智慧水务技术指南》解读.pdf VIP
- 北京市西城区北京师范大学附属实验中学2025-2026学年度第二学期期中试卷七年级数学(含解析).docx VIP
- 云南滇中新区股权投资有限公司招聘笔试真题2024 .pdf VIP
- 2026年桂林市高三第一次适应性模拟考试(一模)语文试卷(含答案及解析).pdf
- 2025年高考物理力学专题.docx VIP
- 2022年海南省高考真题化学试题(原卷版).pdf VIP
- 云南滇中新区招商服务有限公司招聘笔试真题2024 .pdf VIP
- 云南滇中新区股权投资有限公司招聘考试真题2025.docx VIP
原创力文档

文档评论(0)