离线和实时大数据开发实战正文indd.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一篇 Part 1 数据大图和数据平台 大图 “不谋万世者,不足谋一时;不谋全局者,不足谋一域。”作为本书的 开篇,本篇正是基于此考虑撰写的。本篇分为两章,主要站在全局的角度 对数据、数据技术、数据相关从业者和角色、离线和实时数据平台架构等 给出整体和大图形式的介绍。 本篇不会详细深入具体的各项数据技术内部,这些内容将交由第二篇 和第三篇的各个具体章节来完成。 第1 章为数据大图,主要从数据整体角度,结合数据从采集到消费的 四大流程,对相关的数据技术和人进行介绍和刻画。 第2 章为数据平台大图,主要从数据平台的角度对离线和实时数据平 台架构以及相关的各项技术进行介绍。就业界数据平台的现状来讲,离线 数据平台仍然是众多公司和组织的数据主战场,但是实时数据越来越重要, 也越来越得到重视并被放在战略地位,可以说实时数据平台是数据平台的 未来,未来也许将会颠覆离线数据平台。 第2 章是本书的纲领,同时给出了数据技术的整体骨架,后续的第二 篇和第三篇将基于此骨架,具体介绍各个数据开发技术和框架。 Chapter 1 第 1 章 数 据大 图 数据是原油,数据是生产资料,数据和技术驱动,人类正从IT 时代走向DT 时代,随 着数据的战略性日渐得到认可,越来越多的公司、机构和组织,尤其是互联网公司,纷纷 搭建了自己的数据平台。不管是基于开源技术自研、自建还是购买成熟的商业解决方案, 不管是在私有的数据中心还是在公有云端,不管是自建团队还是服务外包,一个个数据平 台纷纷被搭建,这些数据平台不但物理上承载了所有的数据资产,也成为数据开发工程师、 数据分析师、算法工程师、业务分析人员和其他相关数据人员日常的工作平台和环境,可 以说数据平台是一个公司、机构或组织内“看”数据和“用数据”的关键基础设施,已经 像水电煤一样不可或缺,正是它们的存在才使得数据变现成为可能。 数据从产生到进入数据平台中被消费和使用,包含四大主要过程:数据产生、数据采 集和传输、数据存储和管理以及数据应用,每个过程都需要很多相关数据技术支撑。了解 这些关键环节和过程以及支撑它们的关键技术,对一个数据从业者来说,是基本的素养要 求。因此本章首先对数据流程以及相应的主要数据技术进行介绍。 同时,本章也将介绍数据的主要从业者,包括平台开发运维工程师、数据开发工程师、 数据分析师、算法工程师等,并对他们的基本工作职责和日常工作内容等进行介绍,使读 者对数据相关的职位有基本的认识和了解。 1.1 数据流程 不管是时髦的大数据还是之前传统的数据仓库,不管是目前应用最为广泛的离线数 据还是越来越得到重视的实时数据,其端到端流程都包含:数据产生、数据采集和传 第 1 章 数 据 大 图 3 输、数据存储处理、数据应用四大过程,具体的数据流程图及其包含的关键环节如图 1-1 所示。 数据产生 埋点日志 业务系统 数据文件 数据应用 埋点日志 数据存储处理 报表展示 Web 系统 数据文件 Staging ETL 离线数据 数据分析 Area 仓库 埋点日志 即席分析 手机App 数据文件 数据 采集 微批/ 近线数据 数据挖掘 外部系统 爬虫/ 传输

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档