Flink革新:流批一体计算架构探索.pdfVIP

  • 1
  • 0
  • 约1.58千字
  • 约 2页
  • 2026-06-25 发布于北京
  • 举报

《009_flink的革新:流批一体的计算架构》

其实平时我们玩儿大数据,大数据,就是去先收集到需要的数据,接着对数据做处理,

处理后有两种用途:第一种就是数据分析,以数据仓库为,数据分析能力,这个占

到了大多数场景,80%;第二种是用数据支撑各种业务功能和智能行为,比如说个性化推荐、

搜索、、金融、风控,等等,这个也很多,但是占比相对属于少部分,20%

玩儿数据,数据-处理数据-使用数据(80%以上是报表,20%是支撑高大上

的场景和功能)

收集数据一般都有哪些呢?最基础的就是互联网产品的用户行为日志,其次还有比如信用

卡事务、物联网设备的数据上报、服务器的自身日志,等等,这些都是常见的收集的数

据,但是所有的数据,其实都是一种数据流

也就是每条数据都有一个产生的时间,他们都是持续不断的产生的,然后源源不断的被我们

收集到以后写入kafka里面去,或者是不断的写入到hdfs里去,这就是一个数据的过

程,对吧?

所以以前往往是离线数据和实时数据分离的计算架构,也就是用storm、sparkstreaming一

类的技术对kafka里的实时数据做计算,就是实时计算,用spark、hive、mapreduce一类的

离线批处理分布式计算技术对hdf

文档评论(0)

1亿VIP精品文档

相关文档