- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop在淘宝的应用-搜索中心
Why Hadoop? 可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。 经济:框架可以运行在任何普通的PC上。 可靠:分布式文件系统的备份恢复机制以及Map-Reduce的任务监控保证了分布式处理的可靠性。 高效:分布式文件系统的高效数据交互实现以及Map-Reduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。 HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop提供的基础设施,Hadoop其它子项目均依赖于HDFS。 作为一个分布式文件系统,HDFS用于部署在低成本的硬件之上(使用普通PC的硬盘),因此其具有很高的容错性。 HDFS示意图 HDFS Shell HDFS除了提供API之外,还提供了一个HDFS Shell供用户访问文件系统。Shell提供了ls、cat、cp、touch、mkdir、rmr、tail、chmod、chown等接口。 Map-Reduce介绍 Map-Reduce是一个分布式的计算框架,用于大规模数据集的并行运算。 Map-Reduce大大降低了分布式计算的难度。 一个Map/Reduce 作业的输入和输出类型如下所示: (input) k1, v1 - map - k2, v2 - combine - k2, v2 - reduce - k3, v3 (output) Map-Reduce示意图 一个简单的例子 map函数 public void map(LongWritable key, Text value, OutputCollectorText, IntWritable output, Reporter reporter) throws IOException { String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens()) { word.set(tokenizer.nextToken()); output.collect(word, one); } } reduce函数 public void reduce(Text key, IteratorIntWritable values, OutputCollectorText, IntWritable output, Reporter reporter) throws IOException { int sum = 0; while (values.hasNext()) { sum += values.next().get(); } output.collect(key, new IntWritable(sum)); } Hive简介 Hive是一个基于Hadoop的数据仓库分析框架,由Facebook贡献给了开源社区。Hive定义了一种类似于SQL的语言-HQL,使用HQL可以方便使用SQL类似的语句分析数据,大大降低了数据分析的难度。 Hive支持Map-Reduce。Hive支持UDAF(User Defined Aggregate Function,用户自定义的聚合函数)。 Hadoop Job Web UI 目前Hadoop主要应用于以下几个方面: 1、为搜索引擎提供数据建索引。 dump中心每天凌晨从数据库将表拉到HDFS上,各系统使用各自的Map-Reduce算法生成需要的doc文档。 2、用户商务智能分析,比如使用协同过滤算法为用户推荐商品。 第一种方案 项目实施首先选择的方案是自己编写Map-Reduce Job来生成相关的文档数据。使用Hadoop二次排序的方式连接各文件。 主要优点: 1、过程完全可控,依赖少。 2、效率较高。 主要缺点: 1、需要分别针对收藏数据和交易数据写两个Hadoop Job。 2、代码量比较多,可维护性较差。 新方案-使用Hive 由于数据量比较大,有些记录格式有错,使得自己编写的Map-Reduce Job生成的数据总是少了一些。鉴于Hive诸多优点,所以项目中途改用Hive重写。 主要优点: 1、使用HQL,站在更高的逻辑层次上,代码量少,可维护性非常好。 2、只需编写一个UDAF便可聚合同一买家对应的收藏和交易买家列表。 主要缺点: 1、运行速度略慢。 2、依赖Hive,需要在生产环境部署Hive。
您可能关注的文档
- HACCP培训PPT.ppt
- Hachi忠犬八公_英文影评PPT.ppt
- Hadoop Balancer原理分析.pptx
- hadoop2.2.0在windows上安装.doc
- Hadoop2.7.0环境搭建详细笔记.docx
- Hadoop之TaskTraker分析.doc
- Hadoop实用指南.pptx
- hadoop基础知识学习.ppt
- Haier 海尔公司 英文.pptx
- haiku日本俳句中英版讲解.ppt
- ABB REX640 保护和控制继电器 适用于高级发电和配电应用的一体化保护装置 数据表(中文).pdf
- honeywell霍尼韦尔SmartLine® 电子远传变送器产品文档.pdf
- Fujifilm 富士胶片 ApeosWare Management Suite 2 GM1216C2-6 说明书.pdf
- Panasonic松下HBC软件YA-2KPMV1F01说明书用户手册.pdf
- Colorlight卡莱特AI智能媒体中心AX6K 产品规格书 V1.0说明书用户手册.pdf
- ABB Prerequisite SOP for ServiceNow Discovery BAU 操作说明(英语).pdf
- YJ扬杰SiC MOSFET模块 MC14HFZ12C1N规格说明书.pdf
- YJ扬杰IGBT模块 MG40P12E2A规格说明书.pdf
- YJ扬杰IGBT单管 DGB20N65CTL1K规格说明书.pdf
- ApeosWare 管理套件 系统要求 Management Suite 2 入门指南.pdf
原创力文档


文档评论(0)