- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
mapreduce倒排索引算法.doc
Mapreduce程序设计报告
姓名:
学号:
题目: 莎士比亚文集倒排索引算法
实验环境
联想pc机
虚拟机:VM 10.0
操作系统:Centos 6.4
Hadoop版本:hadoop 1.2.1
Jdk版本:jdk-7u25
Eclipse版本:eclipse-SDK-4.2.2-linux-gtk-x86_64
实验设计及源程序
2.1实验说明
对莎士比亚文集文档数据进行处理,对莎士比亚文集文档数据进行倒排索引
处理,结果输出到指定文件
2.2实验设计
(1)InvertedIndexMapper类
这个类实现 Mapper 接口中的 map 方法,输入参数中的 value 是文本文件中的一行,利用正则表达式对数据进行处理,使文本中的非字母和数字符号转换成空格,然后利用StringTokenizer 将这个字符串拆成单词,最后将输出结果,outkey为单词+单词所在的文件名,outvalue为1。
public static class InvertedIndexMapper
extends MapperObject, Text, Text, IntWritable{
private final static IntWritable one = new IntWritable(1);
public void map(Object key, Text value, Context context
) throws IOException, InterruptedException {
//获取文件名以及预处理
FileSplit filesplit =(FileSplit)context.getInputSplit();
String filename =filesplit.getPath().getName();
String line=value.toString();
String s;
//利用正则表达式除去非数字和字母的符号
Pattern p =Ppile([^\\w+]);
Matcher m=p.matcher(line);
String line2=m.replaceAll( );
StringTokenizer itr = new StringTokenizer(line2); //按照空格对字符串进行划分
while (itr.hasMoreTokens()) {
s=itr.nextToken().toLowerCase();
if(!ls.contains(s)){
Text filename_num=new Text(s+,+filename);//将单词和单词所在的文件名进行合并
context.write(filename_num, one);
}
}
}
} (2)InvertedIndexPartitioner类
这个类是自定义的Partitioner类,通过复写getPartition() 方法来自定义子集的分区key。将 key按照分隔符进行分割,取key的前面部分进行分区,将相同的(即单词相同)分入同一个reduce。
public static class InvertedIndexPartitioner extends HashPartitionerText,IntWritable{
public int getPartition(Text key,IntWritable value,int numReduceTasks){
Text key1 =new Text(key.toString().split(,)[0]);
super.getPartition(key1,value,numReduceTasks);
return 0;
}
}
(3)CombineReducer类
这个类是在map输出结果之后输入reduce之前做的一个操作,是一个小型的reduce操作,这个操作可以减少reduce阶段的工作量,从而优化性能。
public static class CombineReducer
extends ReducerText,IntWritable,Text,IntWritable {
public vo
您可能关注的文档
最近下载
- 2023年陕西省人民医院医护人员招聘考试题库及答案解析.docx
- 江苏洋河酒厂股份有限公司2024年应届高校毕业生招聘高频考题难模拟试题(共100题)附带答案题库含答.docx VIP
- 人教部编版《阿长与山海经》课件(公开课一等奖) 七年级语文部编版.pptx
- 广州市2023-2024学年高一年级下学期八区期末联考考试英语试题(含答案).doc
- 出师表(标准注音版)修正版.pdf
- 项目化学习视域下小学语文单元作业设计实践探索.docx VIP
- 以竹代塑的可行性分析.docx VIP
- DGTJ 08-205-2024 居住建筑节能设计标准(正式版)(1).docx
- 江苏洋河酒厂股份有限公司2024年应届高校毕业生招聘高频考题难模拟试题(共100题)附带答案题库含答.docx VIP
- 换季衣物巧收纳小学四年级下册综合实践PPT课件.pptx VIP
文档评论(0)