- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1
PAGE 1
大数据环境下该如何优雅地设计数据分层
发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。 发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。现在所谓的大数据更多的是一种数据量级的增大和工具的上的更新。两者并无冲突,相反,而是一种更好的结合。 话说,单纯用用Hadoop、Spark、Flume处理处理数据,其实只是学会几种新的工具,这是搞工具的,只是在数据仓库中etl中的一部分。 当然,技术的更新往往能领到一个时代的变革,比如Hadoop的诞生,光是深入研究一个大数据组件就要花很大的时间和精力。但是在热潮冷却之后,我们更应当考虑地是如何更好地管理和使用自己的数据。 对于数据的从业者来讲,要始终重视紧跟技术的变革,但是切记数据为王,在追求技术的极致的时候,不要忘了我们是搞数据的。 文章主题 吐槽完毕,本文主要讲解数据仓库的一个重要环节:如何设计数据分层!其它关于数据仓库的内容可参考其它的文章数据仓库。 本文对数据分层的争论适合下面一些场景,超过该范围场景or数据仓库经验丰富的大神就不必铺张时间看了。 数据建设刚起步,大部分的数据经过粗暴的数据接入后就直接对接业务。 数据建设发展到一定阶段,发觉数据的使用杂乱无章,各种业务都是从原始数据直接计算而得。 各种重复计算,严重铺张了计算资源,需要优化性能。 文章结构 最初在做数据仓库的时候遇到了许多坑,由于自身资源有限,接触数据仓库的时候,感觉在互联网行业里面的数据仓库成功经验很少,网上很难找到比较实践性强的资料。而那几本经典书籍里面又过于理论,折腾起来真是生不如死。还好现在过去了那个坎,因此多花一些时间整理自己的思路,帮助其他的小伙伴少踩一些坑。 1.为什么要分层?这个问题被好几个同学质疑过。因此分层的价值还是要说清晰的。 2.共享一下经典的数据分层模型,以及每一层的数据的作用和如何加工得来。 3.共享两个数据分层的设计,通过这两个实际的例子来说明每一层该怎么存数据。 4.给出一些建议,不是最好的,但是可以做参考。 为什么要分层 我们对数据进行分层的一个主要原因就是期望在管理数据的时候,能对数据有一个更加清楚的掌控,具体来讲,主要有下面几个原因: 1.清楚数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更便利地定位和理解。 2.数据血缘追踪:简洁来讲可以这样理解,我们最终给业务诚信的是一能直接使用的张业务表,但是它的来源有许多,假如有一张来源表出问题了,我们期望能够快速精确地定位到问题,并清晰它的危害范围。 3.削减重复开发:规范数据分层,开发一些通用的中间层数据,能够削减极大的重复计算。 4.把复杂问题简洁化。讲一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简洁和简单理解。而且便于维护数据的精确性,当数据出现问题之后,可以不用修复全部的数据,只需要从有问题的步骤开始修复。 5.屏蔽原始数据的异常。 3.屏蔽业务的影响,不必改一次业务就需要重新接入数据。 数据体系中的各个表的依靠就像是电线的流向一样,我们都期望它是很规整,便于管理的。但是,最终的结果大多是第一幅图,而非第二幅图。 怎样分层 理论 我们从理论上来做一个抽象,可以把数据仓库分为下面三个层,即:数据运营层、数据仓库层和数据产品层。 ODS全称是OperationalDataStore,操作数据存储 发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。 发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。现在所谓的大数据更多的是一种数据量级的增大和工具的上的更新。两者并无冲突,相反,而是一种更好的结合。
您可能关注的文档
最近下载
- 2025年大足县大足县某国企招聘工作人员若干人备考题库及答案详解1套.docx VIP
- NB╱T 47013.8-2015 压设备无损检测第8部分:泄漏检测.pdf VIP
- 开关端子箱更换作业指导书.docx VIP
- 生产现场巡查与督导解读.pptx VIP
- 统编版(2019)高一上学期必修中外历史纲要上期末综合检测试卷(含答案解析).docx VIP
- 2025年大足县大足县某国企招聘工作人员若干人备考题库带答案详解.docx VIP
- 北京市民政局所属事业单位招聘考试真题及答案.docx VIP
- 2025《数据基础设施 接入管理》.pdf VIP
- 初中物理核心知识点全梳理(附中考考点标注).docx VIP
- 院感知识考试试题及答案.docx VIP
原创力文档


文档评论(0)