- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
小源大数据组
数据部
2016-10-25
目 录
一、
现状分析
1.1 业务现状
1.2 数据现状
1.3 支撑现状
二、
数据中心的设计与规划
三、
数据中心实施计划
业务现状
企业信息化
多趣短信
JIRA
Wikijira
户部管理系统
短信公众号管理
脚本管理
销售平台
数据用户部门
总经办
商务
销售组
市场
品牌组
合作组
运营
脚本组
资料组
营收组
产品
产品
数据现状
数据总量30TB+
日增量超过300GB+ 30亿行
入库OSS时效:2小时
格式化分拆数据 7小时
数据
现数据平台技术架构
hbase
OSS
存储层
计算
层
Spark streamming
RDS mysql
spark-SQL
应用层
自研报表系统j2ee+ext
Hadoop hdfs
接口
小时log文件
RDD
phoenix
面临的问题
数据量大(30亿行)
数据访问难度大
数据结构复杂
目 录
一、
现状分析
二、
数据中心的设计实施
2.1 方法论
2.2 数据中心的逻辑架构
2.3 数据流程
2.4 数据逻辑分层
2.5 模型规划
2.6 管理运维体系
三、
数据平台实施计划
数据平台实施方法论
前期准备
业务调研
信息探索
逻辑模型设计
总体方案
项目计划
系统体系架构设计
数据库与模型设计
接口与ETL设计
应用于界面设计
数据管控设计
系统开发与单元测试
上线部署
用户培训
试运行
分析规划
设计实施
上线部署
运行维护
ETL过程
数据管理
分析处理
运行监控
仓库管理
应用切换
持续改进提升价值
阿里云系架构逻辑
Hadoop集群 总共300台
数据获取
数据平台
应用层
数据源
RDS
OSS
ascii文件
点击流
INFO
DataHub
Fluentd插件
(实时流)
ODS
(原始数据)
DM
(集市
主题)
统一门户
DW (清洗转换)
开发套件(Data IDE)
统一接口
元数据管理
数据质量管理
数据安全管理
用户
BI报表
机器学习
OLAP
ADS
DataV
实时日志文件
/http请求
客户端
实时数据
数据收集
数据存储
数据处理
非本期实现
ODPS插件
数据流程
数据逻辑分层
5.DIM层
维表
模型规划-业务概念
企业
号码
情景
服务
消费/访问
渠道
用户
选择
产生
导向
参与
产生
使用
使用
企业
dw
dm
企业号统计
ods
与接口源系统结构数据信息一致
收入成本
户部信息
企业菜单
模型规划
服务
用户
营收分利
流量分利
用户识别
用户终端
企业号识别
归属地查询
渠道
情景配置
情景识别
车次查询
H5埋点
菜单展示点击统计
菜单更新统计
用户标签
用户周、月累计去重汇总
情景更新
客户端行为埋点
Sdk统计
用户服务使用
指标体系
数据处理-一般数据拆分
接口采用高扩展的JSON格式入ODPS,使用json函数分拆后丢弃json数据
普通数据映射为二维表入ODPS
数据可视化-数加BI报表
数据源+绑定控件的报表设计模式
数据可视化-数据分析
基础数据构建完善后,Enable 人人皆分析师
数据处理-复杂数据处理
自定义函数:/document_detail/odps/SQL/udf/java_udf.html
Mapreduce:/document_detail/odps/MapReduce/summary/mr.html?spm=5176.docodps/MapReduce/function/cmd.6.164.nW9LIc
招拆招
UDF自定义函数
MapReduce
Java Sdk/python
数加管理运维体系
任务概述
任务监控
数据流程
任务运维
一阶段数据接口
类别
路径
数据说明
优先级
pretty-log
service/YYYYMMDD/QueryLocationRequest/
归属地查询
中
pretty-log
service/YYYYMMDD/QueryPubInfoRequest/
企业号资料获取接口
高
pretty-log
service/YYYYMMDD/QuerySceneRuleRequest/
情景规则
低
pretty-log
service/YYYYMMDD/QueryToken/
Token查询
低
pretty-log
service/YYYYMMDD/UpdatePublicInfoRequest
公众号请求
高
pretty-log
service/YYYYMMDD/UpdateRecognitionJarRequest/
更新识别jar请求
低
pretty-log
service/YYYYMMDD/checkResourseRequest/
resourse请求
低
pret
您可能关注的文档
- 外科学手术-清创术要领.ppt
- 外媒惊讶中国登世界最可怕军队榜.ppt
- 外伤的现场急救基本技术(止血).ppt
- 外研(三起)六上M1U1-It's-more-than-twenty-thousand-kilometres-long..ppt
- 外研版必修四-module1--reading.ppt
- 外研版七年级上Module2-Unit1.pptx
- 外研版小学英语六年级上册Module1-unit1-The-Great-Wall..ppt
- 外研版新标准小学英语六年级上册B7M1U1-It's-more-than-twenty-thousand-kilometres-long..ppt
- 外因对化学平衡影响课件.pptx
- 万宝乐:如何知道宝宝该换纸尿裤了.pptx
文档评论(0)