mapreduce倒排索引算法.doc

下载文档

30
0
约 7页
2015-08-07 发布于湖北
举报
版权申诉
保障服务

mapreduce倒排索引算法.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

mapreduce倒排索引算法.doc

Mapreduce程序设计报告姓名：学号：题目：莎士比亚文集倒排索引算法实验环境联想pc机虚拟机：VM 10.0 操作系统：Centos 6.4 Hadoop版本：hadoop 1.2.1 Jdk版本：jdk-7u25 Eclipse版本：eclipse-SDK-4.2.2-linux-gtk-x86_64 实验设计及源程序 2.1实验说明对莎士比亚文集文档数据进行处理，对莎士比亚文集文档数据进行倒排索引处理，结果输出到指定文件 2.2实验设计（1）InvertedIndexMapper类这个类实现 Mapper 接口中的 map 方法，输入参数中的 value 是文本文件中的一行，利用正则表达式对数据进行处理，使文本中的非字母和数字符号转换成空格，然后利用StringTokenizer 将这个字符串拆成单词，最后将输出结果,outkey为单词+单词所在的文件名，outvalue为1。 public static class InvertedIndexMapper extends MapperObject, Text, Text, IntWritable{ private final static IntWritable one = new IntWritable(1); public void map(Object key, Text value, Context context ) throws IOException, InterruptedException { //获取文件名以及预处理 FileSplit filesplit =(FileSplit)context.getInputSplit(); String filename =filesplit.getPath().getName(); String line=value.toString(); String s; //利用正则表达式除去非数字和字母的符号 Pattern p =Ppile([^\\w+]); Matcher m=p.matcher(line); String line2=m.replaceAll( ); StringTokenizer itr = new StringTokenizer(line2); //按照空格对字符串进行划分 while (itr.hasMoreTokens()) { s=itr.nextToken().toLowerCase(); if(!ls.contains(s)){ Text filename_num=new Text(s+,+filename);//将单词和单词所在的文件名进行合并 context.write(filename_num, one); } } } } (2)InvertedIndexPartitioner类这个类是自定义的Partitioner类,通过复写getPartition() 方法来自定义子集的分区key。将 key按照分隔符进行分割，取key的前面部分进行分区，将相同的（即单词相同）分入同一个reduce。 public static class InvertedIndexPartitioner extends HashPartitionerText,IntWritable{ public int getPartition(Text key,IntWritable value,int numReduceTasks){ Text key1 =new Text(key.toString().split(,)[0]); super.getPartition(key1,value,numReduceTasks); return 0; } } （3）CombineReducer类这个类是在map输出结果之后输入reduce之前做的一个操作，是一个小型的reduce操作，这个操作可以减少reduce阶段的工作量，从而优化性能。 public static class CombineReducer extends ReducerText,IntWritable,Text,IntWritable { public vo