大数据技术与应用常见问题.pdfVIP

  • 0
  • 0
  • 约1.33千字
  • 约 1页
  • 2026-06-10 发布于北京
  • 举报

1.taildirsource怎么实现的断点续传?实际使用有什么问题?怎么解决?

2.Flume使用都遇到了什么问题?

3.Flume组件间消息的传输是以事务的方式吗?是精准一次发送还是会重复发送呢?

4.kafka优势,为什么MQ选择kk而不选其他?

5.flink消费kk如果有重复消费怎么处理?怎么保证精准一次消费?怎么去重?

6.我答使用两阶段提交,他问提交了什么信息?讲一下使用两阶段提交会有什么问题呢?

7.Flink与SparkStreaming的特点分别介绍下?

8.hbase的数据结构,rowkey设计原则?适合读还是写?为什么?

9.答:LSM树型结构,多读

10.介绍一下canal应用在什么场景实现了什么功能

11.MysqlMaster和slave的同步机制

12.介绍一下redis的raft协议(应该是这个名字)

13.什么表一般会用ORC格式、什么表一般用Parquet格式?

14.快照表和拉链表的区别

15.如果给你提一个需求,需要将ods、dwd、dws层数据全部都要用到,并且需要全部都

要重新在做一遍,然后为了生成这个ads层数据的结果,你是怎么避免这种yanzuo式

文档评论(0)

1亿VIP精品文档

相关文档