最新国家开放大学电大《大数据技术导论》实验报告实验4 大数据去重.pdfVIP

  • 29
  • 0
  • 约7.35千字
  • 约 8页
  • 2024-04-13 发布于山东
  • 举报

最新国家开放大学电大《大数据技术导论》实验报告实验4 大数据去重.pdf

最新国家开放大学电大《大数据技术导论》实验报告

实验4大数据去重

1.实验目的

通过Hadoop数据去重实验,学生可以掌握准备数据、伪分布式文件系统配置方法,以及

在集成开发环境Eclipse中实现Hadoop数据去重方法。

2.实验要求

了解基于Hadoop处理平台的大数据去重过程,理解其主要功能,并能够在Hadoop环境下

独立完成。

(1)制订实验计划。

(2)准备数据。

(3)伪分布式文件系统配置。

(4)在集成开发环境Eclipse中实现Hadoop数据去重。

3.实验内容

(1)制订实验计划。

(2)进入“/usr/local/hadoop”目录。

(3)准备数据。

(5)NameNode格式化。

(6)在集成开发环境Eclipse中实现Hadoop数据去重。

4.实验总结

通过本实验,使学生了解Hadoop数据去重的特点和过程、理解MapReduce程序的执行过

数据去重的方法。

5.思考拓展

(1)为什么需要NameNode格式化?说明NameNode格式化方法。

(2)为什么需要数据去重?说明Hadoop数据去重的主要优势。

(3)结合Ma

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档