- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一淘及搜索事业部 阿里搜索引擎技术峰会 一淘及搜索事业部 阿里搜索引擎技术峰会 一淘及搜索事业部 引擎平台统一之路 阿里搜索引擎技术峰会 iSearch3 iSearch3 kingso iSearch5 2013 一淘及搜索事业部 阿里搜索引擎技术峰会 THANK YOU! 提纲 搜索离线系统技术体系 Hadoop-2.0 YARN介绍 Stream Service 计算模型 Stream Service 服务调度 Stream Service 运维操作 * 搜索离线系统技术体系 * HDFS YARN HBase MapReduce Stream Service HQueue 搜索离线业务 网页抓取 数据处理 数据统计 Pig Hive 数据挖掘 ……. Hadoop-1.0 VS Hadoop-2.0 * Applications on YARN * Stream Service 计算模型 基本概念 拓扑结构 消息管理 进度管理 编程接口 * 基本概念 Stream Service:完成一套业务功能的流计算服务 Stream Role:1个Role表示1组具备相同计算功能的计算单元 Stream Worker:Stream Role中的计算单元 Stream Source:Stream Worker的数据输入源 Stream Sink:Stream Worker的数据输出终端 Stream Master:负责调度管理Stream Workers * 拓扑结构 * Stream Source Stream Sink/Source Stream Sink/Source Stream Sink Stream Source Stream Source Stream Role Stream Role Stream Role Stream Role 分布式消息队列(HQueue等) HBase,iSearch等 MySQL DRC, TT等 消息管理 Stream Service的设计理念:计算和存储分层,计算之间解耦 计算层之间采用持久化分布式消息队列进行消息传递 消息不会丢失 消息队列可自由选择 优势 消息管理机制简单,系统OverHead消耗少,吞吐量大 上下游计算解耦,不相互阻塞进度,方便新业务接入 持久化的消息流,方便多业务共享数据以及问题追查 * 进度管理 流进度基于时间轴(消息生成时间 vs 消息处理时间) Master WebUI展示Workers进度 Master监控Workers进度(进度过慢进行报警) Worker定期将进度CheckPoint到ZK Worker重启从ZK上的CheckPoint进行恢复 * 编程接口 InputFormat:Stream Source(例如:DRC,TT, HQueue)的操作封装 getSplits(Source):为Stream Source进行数据分片拆分 createReader(Split):为Data Split创建Reader reader.next():流式读取消息 * Split Split Split Split Stream Source reader reader reader reader message message message message 编程接口 Worker:定制消息业务处理逻辑 setUp():消息处理前的初始化工作 cleanUp():消息处理结束后的清理工作 process(message):消息一条条处理 * 编程接口 Router:消息的路由策略 getSinks(message):获取消息的输出sink列表,决定消息向那里路由发送 * Stream Worker Stream Sink Stream Sink Stream Sink message Router 编程接口 OutputFormat:Stream Sink(例如:HBase,HQueue等)的操作封装 createWriter(Sink):为Stream Sink创建Writer writer.write(partitionID, message):向Stream Sink写消息,并按PartitionID进行打散分发 Partitioner:消息的分发策略 getPartition(message):获取消息的partitionID,根据此partitionID决定如何分发打散 * partition partition partition partition Writer Stream Sink message partitionID 服务调度 一级调度,资源调度管理 YARN Resource Manager - Stream Master 二级调度
您可能关注的文档
最近下载
- NBT 35103-2017 水电工程钻孔抽水试验规程.pdf VIP
- 校准实验室认可评审不符合项和高风险典型案例指南.docx VIP
- CNAS-GL055:2024《基于认可评审不符合项的校准实验室风险管理指南》(OCR).pdf VIP
- 2025年四川省凉山州中考英语试题卷(含答案解析).docx
- (新教材)湘艺版三年级上册音乐全册教案(2025年秋新版、无教学反思内容).pdf
- 2025-2026学年小学综合实践活动长春版六年级上册-长春版教学设计合集.docx
- 体验产品按照设计原则的分类休闲农业体验活动设计与组织82课.pptx VIP
- 山东省青岛市2023-2024学年七年级上学期语文期中考试试卷(含答案)3.docx VIP
- 中学初中七上 Unit 5 Section A 1a-2e 课件教育教学资料整理.pptx VIP
- 炎德·英才大联考长郡中学2026届高三月考试卷(一)英语试题卷(含答案).pdf
原创力文档


文档评论(0)