- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
mapreduce莎士比亚文集Wordcount
Mapreduce程序设计报告
姓名:
学号:
题目: 莎士比亚文集WordCount
实验环境
联想pc机
虚拟机:VM 10.0
操作系统:Centos 6.4
Hadoop版本:hadoop 1.2.1
Jdk版本:jdk-7u25
Eclipse版本:eclipse-SDK-4.2.2-linux-gtk-x86_64
实验设计及源程序
2.1实验说明
对莎士比亚文集文档数据进行处理,统计所有除Stop-Word(如a, an, of, in, on, the, this, that,…)k次以上这个类实现 Mapper 接口中的 map 方法,输入参数中的 value 是文本文件中的一行,利用StringTokenizer 将这个字符串拆成单词,将输出结果public static class TokenizerMapper
extends MapperObject, Text, Text, IntWritable{
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text value, Context context
) throws IOException, InterruptedException {
//System.out.println(key+..........+value);
String line=value.toString();
String s;
//将文本中的非字母和数字符号转换成空格
Pattern p =Ppile([(,.:;|?!)]);
Matcher m=p.matcher(line);
String line2=m.replaceAll( );
//System.out.println(line2);
StringTokenizer itr = new StringTokenizer(line2); //将字符串拆成单词
while (itr.hasMoreTokens()) {
s=itr.nextToken();
word.set(s);
if(!ls.contains(s))
context.write(word, one);
}
}
}
(2)IntSumReducer类
这个类实现Reducer 接口中的 reduce 方法, 输入参数中的 key, values 是由 Map任务输出的中间结果,values 是一个 Iterator, 遍历这个 Iterator, 就可以得到属于同一个 key 的所有 value.此处,key 是一个单词,value 是词频。只需要将所有的 value 相加,就可以得到这个单词的总的出现次数。public static class IntSumReducer
extends ReducerText,IntWritable,Text,IntWritable {
private IntWritable result = new IntWritable();
public void reduce(Text key, IterableIntWritable values,
Context context
) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}
(3)IntWritableCompare类
这个类实现了对IntWritabl类型数据的降序排列public static class IntWritableCompare extends I
文档评论(0)