- 13
- 0
- 约5.29千字
- 约 20页
- 2017-10-05 发布于湖北
- 举报
京东数据仓库海量数据交换工具--张侃
京东数据仓库海量数据交换工具
-Plumber开发实践
张侃
京东大数据平台部
/opendayjd
关于我
张侃
大数据平台-实时数据产品研发部
微信: phoenix747
新浪微博: @pho_coder
目录 CONTENTS
一、离线海量数据交换场景介绍
二、plumber技术特点和实现方案
三、 clojure语言在开发中的应用
目录 CONTENTS
一、离线海量数据交换场景介绍
二、plumber技术特点和实现方案
三、 clojure语言在开发中的应用
技术突破
• 海量
• 每日进出上TB数据
• 每天数千数据传输任务
• 异构
• 结构化:mysql, sqlserver, oracle, hive
• 非结构化: mongodb, hbase, log
• 场景复杂
• mysql分库分表
• 全国各地仓库数据抽取
流程优化
三次传输 三次落地 一次清洗
DB 原始数据 HIVE客户端 HIVE
落地平台
一次传输 无落地 实时清洗
DB plumber HIVE
目录 CONTENTS
一、离线海量数据交换场景介绍
二、plumber技术特点和实现方案
三、 clojure语言在开发中的应用
技术特点及实现方案
• 读写分离插件化
• 多线程并行执行
• 配置化和实时统计信息
• 定制化开发全国仓库抽取
读写插件化
reader disruptor writer
Reader : mysql, sqlserver, oracle, mongodb, hive, log
Writer : hive, mysql, oracle, hbase
插件实现
reader lines disruptor lines filter writer
Reader disruptor
– RDBMS – JDBC
– NOSQL – API
filter
– LOG – http断点续传
Writer
buffer buffer buffer
– RDBMS – JDBC
– Hive – write hdfs
add partitions
HDFS
您可能关注的文档
- 二手店策划案.pdf
- 二级vf第二章.pdf
- 中外效能标准和效能标识.pdf
- 二维图纸设计.pdf
- 二次函数期末汇编(2009-2014).pdf
- 二维高级培训-讲解稿(修订)20141213 [兼容模式].pdf
- 中西部欠发达区域特色资源产业化模式研究_时岩.pdf
- 互换性与测量技术基础习题集.pdf
- 互联网+背景下滴滴打车供求匹配分析.pdf
- 互换性ppt第一章.pdf
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
原创力文档

文档评论(0)