- 9
- 0
- 约4.93千字
- 约 9页
- 2021-11-14 发布于湖南
- 举报
关于将来数据开发技术方向的观点
将来数据开发技术方向,我认为有三个,首先是流批一体成为主流开发模式,其次是代码自动化技术走向成熟,第三是 OLAP Cubes 终将衰落。
一、流批一体成为主流开发模式
先说说我看到的数据开发的历史。
“远古”时代,通过写 SQL 脚本抽取 OLTP 数据库中数据进行分析和统计,大量查询有可能把数据库拖挂;
OLAP 分析成为数据库的一项重要力量,这个时候,可以写 SQL,也可以写Python 代码等来进行数据分析和统计,但面对不断增长的数据量,数据库功能遇到挑战;
Hadoop 技术的引入和不断成熟,海量数据的离线存储、计算和调度问题得到处理;
Storm 让海量数据的实时计算成为可能,促进了一大批实时数据产品的消灭,也促进了 Lambda数据架构的消灭和流行;
Kafka、Spark、Flink 等技术的流行,整个数据链路的全流式计算成为可能,Kappa 架构消灭和流行。
从单机 OLAP 到 Lambda 到Kappa 的演进,数据链路上的问题、数据计算层面的问题得到了很好处理。那将来一切皆流式,一切皆实时能否可行?能否经济?我们的数据架构还存在什么问题?列举几个数据领域常见的问题:
数据产品实时和离线模块同一目标数值不同,由于目标计算离线、实时是单独开发,单独存储的,口径有差异;
同一口径的数据目标,需要离线和实时各开发一份代码,由于彼此的计
原创力文档

文档评论(0)