- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop倒排索引例子
package cn.yws;
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
//倒排索引 请在hadoop index_in目录下放置file1,file2测试文件
public class MyInvertedIndex {
public static class Map extends MapperObject, Text, Text, Text
{
private Text keyinfo=new Text();
private Text valueinfo=new Text();
private FileSplit split;
//映射
@Override
protected void map(Object key, Text value,
Context context)
throws IOException, InterruptedException {
//super.map(key, value, context);
//获取文件分词
split=(FileSplit) context.getInputSplit();
StringTokenizer tokenizer=new StringTokenizer(value.toString());
while(tokenizer.hasMoreTokens())
{
int splitindex=split.getPath().toString().indexOf(file);
keyinfo.set(tokenizer.nextToken()+:+split.getPath().toString().substring(splitindex));
valueinfo.set(1);
//file3:1;
context.write(keyinfo, valueinfo);
}
}
}
public static class Combine extends ReducerText, Text, Text, Text
{
private Text infoText=new Text();
@Override
protected void reduce(Text key, IterableText values,
Context context)
throws IOException, InterruptedException {
//super.reduce(key, values, context);
int sum=0;
for(Text value:values)
{
sum+=Integer.parseInt(value.toString());
}
int splitindex=key.toString().indexOf(:);
//file2:1;file3:2;file1:1
infoText.set(key.toString().substring(splitindex+1)+:+sum);
key.set(key.toString().substring(0,splitindex));
context.write(key, infoText)
您可能关注的文档
- CDFI上岗证考试《第十一章_先天性心脏病》试题及答案.doc
- CENTOS62版本的单用户进系统改密码文档.doc
- chapter5英语长句的处理.doc
- ChinaDaily10月热词新词.doc
- CE认证产品检测标准.doc
- Cam曲线运动方程式应用简介.doc
- Civil3D.doc
- CNC数控编程题库.doc
- comsol化学工程模块个例中文翻译.doc
- CMOS试卷.doc
- 新能源材料与器件制备技术 课件全套 第1--13章 概述----环境污染与治理.pdf
- 苏教版高中生物必修1全册教学课件.pdf
- 社服零售行业2025年三季报前瞻:关注出海链释放业绩弹性以及AI应用催化-250927-华西证券.pdf
- 全球供应链新秩序(8):贸易战并非制造强国的桎梏-250928-中信建投.pdf
- 通信行业专题报告:数据中心互联技术专题五,液冷-智算中心散热核心技术-250929-国信证券.pdf
- 人工智能专题研究报告:“双重变局”下的中国突围之路-250928-银河证券.pdf
- 申洲国际(02313.HK)国际化%2b纵向一体化布局构筑竞争优势-250924-银河证券.pdf
- 首都在线(300846)公司深度研究:把握AI机遇,全球化%2b智算开启新叙事-250923-华龙证券.pdf
- 通信行业动态:阿里巴巴、OpenAI加码投资,持续推荐算力产业链-250928-中信建投.pdf
- 铁路公路行业动态:经波兰中欧班列恢复运行,浩吉铁路开启非煤运输-250928-中信建投.pdf
最近下载
- 如何培养良好的职业素养.ppt VIP
- 湖州神华高分子材料产吨高分子药用辅料聚维酮PVP扩建项目环境影响报告表及拟批准的公示环评报告.pdf VIP
- 人教版四年级数学上册半期考试卷.docx VIP
- 团体标准解读——成人失禁相关性皮炎的预防与护理.pptx VIP
- 湖北建筑工程竣工资料表格统一用表上册(1-49页).docx
- 生活区临建施工方案.docx VIP
- 《呼吸机操作流程》课件 .ppt VIP
- 肃北县博伦矿业开发有限责任公司七角井铁矿深部二期开采工程环境影响报告书.pdf VIP
- 《中华人民共和国药品管理法》培训解读课件.pptx VIP
- 《马原》简答题与论述题汇总(附答案).doc VIP
文档评论(0)