国家开放大学电大《大数据技术导论》实验报告实验4 大数据去重.docxVIP

  • 79
  • 0
  • 约7.57千字
  • 约 8页
  • 2023-07-11 发布于四川
  • 举报

国家开放大学电大《大数据技术导论》实验报告实验4 大数据去重.docx

最新国家开放大学电大《大数据技术导论》实验报告 实验4大数据去重 .实验目的 通过Hadoop数据去重实验,学生可以掌握准备数据、伪分布式文件系统配置方法,以及 在集成开发环境Eel ipse中实现Hadoop数据去重方法。 .实验要求 了解基于Hadoop处理平台的大数据去重过程,理解其主要功能,并能够在Hadoop环境下 独立完成。 (1)制订实验计划。 (2)准备数据。 (3)伪分布式文件系统配置。 (4)在集成开发环境Eel ipse中实现Hadoop数据去重。 .实验内容 (1)制订实验计划。 (2)进入 ^/usr/local/hadoopv目录。 (3)准备数据。 (4)修改 /usr/local/hadoop/etc/hadoop/^ 目录下的Hadoop配置文件。 NameNodc格式化。 (6)在集成开发环境Eclipse中实现Hadoop数据去重。 .实验总结 通过本实验,使学生了解Hadoop数据去重的特点和过程、理解MapReduce程序的执行过 程,掌握NameNode的格式化方法、Hadoop的配置文件的修改和Eel ipse开发环境下实现Hadoop 数据去重的方法。 .思考拓展 (1)为什么需要NameNode格式化?说明NameNode格式化方法。 (2)为什么需要数据去重?说明Hadoop数据去重的主要优势。 (3)结合MapReduce程序执

文档评论(0)

1亿VIP精品文档

相关文档