- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
尹佳俊数据仓库架构落地01架构能力和演进能力演化的不同阶段010203业务线上化策略驱动核心元素作业工具统一/线上化, 提供可初步分析的数据。通常是战略方向性决策、大体计划制订,辅助执行层决策。通常是战略方向性精细到执行人员的工作计划,能够全局地平衡成本与时效。根据线下业务流程,进行作业系统的建设,将业务动作线上化,产生业务动作数据业务专家主导, 把人工经验转换成决策算法, 依靠丰富的内部信息 + 少量外部信息, 做自动化决策; 同时建立评估体系, 评估降本增效的能力算法专家主导,建立高度实时的数据信息平台, 汇总系统内部数据+大量系统外数据, 使用AI算法+策略混合的方式, 形成计划层、执行层、反馈层的闭环落地关键数据仓库构建简单报表数据集市数据仓库数据开发:10人支撑所有业务30+人与业务共建100+人各业务自建、自治模式:架构演进小数据场景大部分问题使用OLTP (Online Transactional Processing)技术就能解决核心数据全集在亿级以下,冷热数据能有效区分界限数据潜在价值容易被忽略、不易挖掘技术普适,适合从0开始的大数据项目,较易验证结果更多数据场景驱动产品智能RDBMS : MySQL在线分析文本挖掘大数据平台:Hadoop产品智能个性化推荐人工智能小数据场景驱动决策精准广告用户画像反作弊运营监控产品改进智能决策复用基础技术,降低开发门槛SQLSQL02数据处理过程数据清洗、转换、集成数据处理过程更好地整理数据:数据清洗更好地整理数据:转换、集成更好地整理数据:ETL结果更好地整理数据:数据仓库(雪花模型)更好地整理数据:数据仓库(星形模型)更好地整理数据:数据聚合更好地整理数据:数据域03小数据场景解决方案技术工具选型/架构思考用户侧(业务人员)的基本要求不能丢失数据,对脏数据有轻微容忍 (最终一致性)数据要尽可能实时(准实时),否则对业务时效有影响系统要高可用, 不能中断(高可用)数据准确性要求高, 否则会影响业务交付(高准确)系统侧的基本要求用于业务流程的API/数据必须保证强一致性轻微容忍服务中断, 有兜底和容错能力高性能、实时响应不可通过扫表/调API的方式采集数据,不能影响作业系统正常工作(异步采集)数据采集Linux shell脚本+定时任务前期数据较小,可通过定时任务简单快速完成数据采集,结果存储到MySQL数据稳定性和时变性时变性+稳定性稳定性: 数据仓库中的数据只进行新增,不进行更新操作、删除操作处理。时变性: 数据仓库的数据一般都带有时间属性,随着时间的推移而发生变化,不断地生成主题的新快照Dashboard: 前后端分离的单体应用,如Springboot2.*+vue小数据场景总结小数据量业务场景的如何用数据驱动?数据与业务一定要形成闭环,让业务产生数据,数据叠加策略、算法去反驱业务本质是业务闭环驱动,以业务价值目标为导向(降本增效)洞悉业务痛点与细节的业务专家至关重要演进式迭代:线上化、策略驱动、数据驱动可挖掘的数据价值 数据体量准确的时效/成本的评价能力至关重要专注小数据中的潜在价值,配合专家认知和策略,尽可能的去挖掘小数据场景总结小数据量场景的数据平台技术架构与组件选型?合理抽象业务数据, 上游易加工、下游易用,语义清晰主要使用OLTP的技术进行处理尽可能贴近业务去进行架构设计,让数据驱动力直接作用于业务上(如智能决策引擎)发挥小数据量带来的实时性优势(技术驱动业务)数据要进行合理的分层存储, 提高复用性合理进行数据异构,尽量复用公司公共资源(如离线从库、数据仓库等)04大数据场景解决方案演化式重构演化式重构存储总量:百PB010203日增量:百TB调度任务数:万+030405元数据表数量:万+每日执行任务数:万+全域数据仓库构建实践解决方案面临问题DB表全量同步,效率低下数据孤岛,无法共享,相互孤立重复计算,缺乏沉淀,资源浪费数据建模意识薄弱表元信息命名不规范指标定义混乱制定规范 约束建表流程数据同步 大表增量 拉链表设计维度建模 主题域划分 轻度汇总 沉淀中间结果数据地图 数据血缘关系统一口径 指标字典管理数据治理 报表生命周期管理大数据体系全域数据仓库承数据启业务核心组件/功能、全域数据仓库、iQuery自助式可视化查询分析平台数据处理过程:数据平台整体流程全域数据仓库四层架构数据产品数据集市数据仓库运营数据大数据场景数据采集解决方案Sqoop的重构与整合主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。数据仓库落地关键数仓一定要层
文档评论(0)