电商行业数据运营建设实践.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
电商行业数据运营建设实践

电商行业数据运营建设实践 提纲一、对BI的思考二、兰亭数据平台建设三、大数据的高性能实现四、高效的数据挖掘五、BI的发展趋势?????一、对BI的思考_定义BI功能 ? 信息搜集 ? 管理 ? 分析 ? 处理BI组成 ? DW ? OLAP ? DM ? 查询报表 ? 数据挖掘BI目的 ? 知识 (Knowledge) ? 洞察力 (Insight) ? 辅助做出决 策一、对BI的思考_数据 采购渠道客服仓储回访注册系统数据用户数据销退订单下单浏览物流沟通一、对BI的思考_协作 管理者物流/仓 储销售BI客服财务运营/设计/推广一、对BI的思考_问题响应较慢? 开发速率跟不上互联网变化的节奏;? 需求变化,又得根据流程重新开发;灵活度不够? 不能进行数据交互、自由组合;? 不能二次分析;无法支持大数据量? TB,PB级数据无法响应一、对BI的思考_解决思路快速响应? 快速响应:实时数据仓库和准实时数据仓库;? 需求变化:最快响应;灵活多变? 人与系统交互、维度自由组合;? 多样的展现方式基于云计算的大数据响应? 海量数据处理:海量业务数据在线分析、云端部署二、兰亭数据平台建设_架构应用层数据产品WebAPI/JDBCRPC统数据服务层一调度、报表系统: Oracle主从 /Redshift 线上服务:Mysql/Redis 集群/HBase查询分析:Hive / 数据仓库/Kibana监控、权限 实时计算:Kafka分布式消息系统 /Streaming流式计算 海量数据/离线计算:EMR/Hive/Spark数据挖掘数据计算层控制文件数 据日志MysqlOracle源数据层二、兰亭数据平台建设 1、数据模型分层:ODS, DW, DM, RPT范围:流量、销售、运营三大数据模型及数据集市推荐:个性化推荐数据、商品推荐数据排序:根据能效值排序的数据????2、架构 ? 调度:基于Quartz开发的调度系统; ? 监控:判断程序执行返回状态,记录到日志表中,发送短信和邮件 报警; ? 权限控制:数据仓库访问权限,申请、审批和授权; ? 线上支持:MySQL,HBase通过API接口支持线上服务二、兰亭数据平台建设2、架构? 数据收集:DataExp ,shell 脚本,Kafka分布式消息系统,快速低成本收集日志等;? 抽取与转换:存储和计算基于EMR/Hive/Spark/Oracle? 存储:Oracle数据仓库存储量级较小的数据,Redshift存储量级大的数据? 云存储:Amazon S3? Redis集群:支持实时推荐等3、应用? 日常查询:临时查询;? 报表服务:报表以web展示,或者邮件形式发送给用户;? 自助服务:支持用户自定义查询,并保存为报表;? 网站运营效果评估:响应时间、各指标用户数等;? 流量分析:流量、点击率、转化率、跳出率等? 推荐系统? 搜索引擎二、兰亭数据平台建设? 统一调度系统:架构ServerMysqlClient AgentClient AgentClient AgentClient Agent其它AWS EC2OracleHadoop二、兰亭数据平台建设? 调度系统:运维、管理、监控、依赖二、兰亭数据平台建设? 报表系统:维度分析、动态展现、权限二、兰亭数据平台建设?计算与存储:EMR + Hive EMR + Hive 元数据RDS MySQLOracleAmazon S3DataExpRedshiftMysql二、兰亭数据平台建设? 应用CRM、其它系 统前端系统搜索引擎Web ServiceRESTful API推荐服务商品排序运营数据三、大数据的高性能实现? 1、Oracle读写分离– 一拖二– 主库写,从库实时复制– 多从库用于查询、统计– 硬件加速:SSD盘加速三、大数据的高性能实现? 2、Redshift– Amazon Redshift 是一种快速、完全托管的 PB级数据仓库解决方案;– 列式存储;– 数据压缩;– 区域映射;– MPP并行处理框架:在不停机的情况下实现扩展或收缩;三、大数据的高性能实现? 3、Logstash、 ElasticSearch、 Kibana– Logstash:日志进行收集、分析、过滤,并将其存储供以后使用;– ElasticSearch:全文搜索服务– Kibana:自定义搜索接口,页面展示四、高效的数据挖掘1、 Hadoop在数据挖掘中的问题? MP模式 vs复杂的机器学习算法? 多次迭代问题? 中间数据的处理? 开发周期长四、高效的数据挖掘2、Spark?RDD(Resilient Distributed Dataset)?内存计算:计算的中间结果保存在内存中,不需要读写HDFS;?快速迭代;?DAG?Scala?函数式编程(FP);?

文档评论(0)

little28 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档