hadoop文本词频排序实验教程方案.docx

大数据技术概论实验报告 文 本 词 频 排 序 姓名: 郭利强 专业: 工程管理专业 学号: 2015E8009064028  TOC \o 1-2 \h \z \u  HYPERLINK \l _Toc435519116 1. 实验要求  PAGEREF _Toc435519116 \h 3  HYPERLINK \l _Toc435519117 2. 环境说明  PAGEREF _Toc435519117 \h 3  HYPERLINK \l _Toc435519118 2.1 系统硬件  PAGEREF _Toc435519118 \h 3  HYPERLINK \l _Toc435519119 2.2 系统软件  PAGEREF _Toc435519119 \h 3  HYPERLINK \l _Toc435519120 2.3 安装与配置  PAGEREF _Toc435519120 \h 3  HYPERLINK \l _Toc435519121 3. 实验设计  PAGEREF _Toc435519121 \h 10  HYPERLINK \l _Toc435519122 3.1 设计思路  PAGEREF _Toc435519122 \h 10  HYPERLINK \l _Toc435519123 3.2 算法设计  PAGEREF _Toc435519123 \h 10  HYPERLINK \l _Toc435519124 3.3 程序和类的设计  PAGEREF _Toc435519124 \h 11  HYPERLINK \l _Toc435519125 4. 程序代码  PAGEREF _Toc435519125 \h 16  HYPERLINK \l _Toc435519126 4.1 WordCount.java代码  PAGEREF _Toc435519126 \h 16  HYPERLINK \l _Toc435519127 4.2 Pair.java代码  PAGEREF _Toc435519127 \h 19  HYPERLINK \l _Toc435519128 5. 实验输入和结果  PAGEREF _Toc435519128 \h 20  HYPERLINK \l _Toc435519129 5.1 实验输入  PAGEREF _Toc435519129 \h 20  HYPERLINK \l _Toc435519130 5.2 实验输出  PAGEREF _Toc435519130 \h 21  HYPERLINK \l _Toc435519138 5.3 实验结果分析  PAGEREF _Toc435519138 \h 23  实验要求 在Eclipse环境下编写WordCount程序,统计所有出现次数k次以上的单词计数,最后的结果按照词频从高到低排序输出。 环境说明 系统硬件 处理器:Intel Core i3-2350M CPU@2.3GHz×4 内存:2GB 磁盘:60GB 系统软件 操作系统:Ubuntu 14.04 LTS 操作系统类型:32位 Java版本:1.7.0_85 Eclipse版本:3.8 Hadoop插件:hadoop-eclipse-plugin-2.6.0.jar Hadoop:2.6.1 安装与配置 1.Hadoop配置 1)core-site.xml configuration property namehadoop.tmp.dir/name valuefile:/usr/local/hadoop/tmp/value descriptionAbase for other temporary directories./description /property property namefs.defaultFS/name valuehdfs://inspiron:9000/value /property /configuration 2)hdfs-site.xml configuration property namedfs

文档评论(0)

1亿VIP精品文档

相关文档