- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据平台架构师岗位招聘考试试卷及答案
试题部分
一、填空题(共10题,每题1分)
1.Hadoop生态中负责分布式存储的核心组件是______。
2.数据仓库维度建模的基础是______表。
3.Flink的核心特性之一是______(如Exactly-Once语义)。
4.大数据平台通常分为采集层、存储层、计算层和______层。
5.Spark的分布式核心抽象是______。
6.数据湖存储______格式的数据,无需预先定义结构。
7.Kafka中负责消息持久化的核心组件是______。
8.离线计算框架除MapReduce外,常用的还有______。
9.数据治理核心包括数据质量、安全和______。
10.Hive早期默认执行引擎是______。
二、单项选择题(共10题,每题2分)
1.以下不属于分布式存储组件的是?
A.HDFSB.CephC.MySQLD.MinIO
2.Flink比SparkStreaming更突出的特性是?
A.批处理B.Exactly-Once语义C.高吞吐量D.简单API
3.数据仓库与数据湖的主要区别是?
A.存储位置B.数据结构定义时机C.存储容量D.访问速度
4.实时数仓常用框架是?
A.HiveB.SparkSQLC.FlinkSQLD.MapReduce
5.Kafka生产者与消费者通过什么交互?
A.TopicB.PartitionC.BrokerD.Offset
6.大数据元数据管理常用工具是?
A.ZookeeperB.HiveMetastoreC.KafkaD.Flink
7.适合高频读写实时数据的存储是?
A.HDFSB.HBaseC.S3D.本地磁盘
8.SparkDataFrame与RDD的主要区别是?
A.分布式B.有SchemaC.可缓存D.支持SQL
9.数据血缘的作用是?
A.统计数据大小B.追踪来源与去向C.加密数据D.备份数据
10.不属于实时采集工具的是?
A.FlumeB.LogstashC.SqoopD.Filebeat
三、多项选择题(共10题,每题2分)
1.Hadoop生态核心组件包括?
A.HDFSB.MapReduceC.YARND.Spark
2.数据仓库常用模型有?
A.星型模型B.雪花模型C.事实星座模型D.关系模型
3.实时计算框架包括?
A.FlinkB.SparkStreamingC.StormD.MapReduce
4.大数据平台应用层场景有?
A.报表分析B.实时监控C.机器学习D.离线计算
5.Kafka关键概念包括?
A.TopicB.PartitionC.OffsetD.Broker
6.数据治理核心维度有?
A.数据质量B.数据安全C.数据标准D.数据成本
7.适合存储半结构化数据的组件有?
A.HBaseB.MongoDBC.CassandraD.Redis
8.Spark核心模块包括?
A.SparkCoreB.SparkSQLC.SparkStreamingD.SparkMLlib
9.实时数仓架构层次包括?
A.ODS层B.DWD层C.DWS层D.ADS层
10.大数据架构设计需考虑的因素有?
A.可扩展性B.容错性C.性能D.成本
四、判断题(共10题,每题2分)
1.HDFSNameNode存储数据块元数据。()
2.SparkStreaming是微批处理,Flink是流处理。()
3.数据湖存储经过清洗的结构化数据。()
4.KafkaPartition不可分区。()
5.Hive可基于Hadoop执行SQL查询。()
6.实时计算延迟通常在秒级/毫秒级。()
7.数据治理仅关注数据质量。()
8.SparkRDD是不可变分布式数据集。()
9.FlumeSource收集数据,Sink输出数据。()
10.数据仓库DWD层是明细数据层。()
五、简答题(共4题,每题5分)
1.简述HDFS主从架构及核心组件作用。
2.对比数据仓库与数据湖的核心差异。
3.简述FlinkExactly-Once语义的实现原理。
4.大数据平台架构设计的基本原则有哪些?
六、讨论题(共2题,每题5分)
1.如何设计支持TB级实时数据处理的大数据平台架构?
2.大数据平台数据治理的难点及解决思路是什么?
答案部分
一、填空题答案
1.HDFS
2.事实
3.Exactly-Once(或状态一致性、低延迟)
4.应用/服务
5.RDD
6.原始/未结构化
7.Broker
8.Spark(或Flink离线模式)
9.数据生命周期管理(或数据标准)
10.MapReduce
二、单项选择题答案
1.C2.B3.B4.C5.A
6.B7.B8.B9.B10.C
三、多项选择题答案
1.ABC2.ABC3.ABC4.ABC5.
您可能关注的文档
- 国潮文创品牌运营总监岗位招聘考试试卷及答案.doc
- 国潮直播内容策划总监岗位招聘考试试卷及答案.doc
- 海马养殖设备调试技师(初级)考试试卷及答案.doc
- 海马养殖设备调试技师(中级)考试试卷及答案.doc
- 海绵城市透水砖铺设技师(初级)考试试卷及答案.doc
- 海绵城市透水砖铺设技师(中级)考试试卷及答案.doc
- 航空电子设备维修工程师岗位招聘考试试卷及答案.doc
- 航空电子设备研发工程师岗位招聘考试试卷及答案.doc
- mRNA 疫苗研发技术员岗位招聘考试试卷及答案.doc
- 半导体靶材研发工程师岗位招聘考试试卷及答案.doc
- 3RV2921-4M型报告开关产品数据表.pdf
- 六年级下册数学课件-《数学游戏》-人教新课标(共15张PPT).pptx
- 2020版高考地理总复习配鲁教版课件:第三单元-第14讲-地理环境的整体性、圈层相互作用案例分析.ppt
- 人教版一年级上册数学课件:2.2-左右-(共23张PPT).ppt
- 五年级下册数学教案-2.1---正数和负数-▏沪教版---(1).ppt
- 2.2大气的受热过程和大气运动高一地理同步精品课件(新教材人教版必修第一册).ppt
- 新人教版--选择性必修3-胚胎工程技术及其应用-第1课时-课件(48张-).ppt
- 人教版三年级数学上册第12周课件:第5课时-归总问题-(共13张PPT).pptx
- 英语语法课件-介词-沪教牛津版(深圳用)(共46张PPT).pptx
- 非营利组织特性与监管:慈善机构概览.pdf
最近下载
- 多肽的合成和生产指南(EMA)draft-guideline-development-and-manufacture-synthetic-peptides_en.pdf VIP
- 原材料安全库存管理策略.docx VIP
- 剑桥商务英语(初级)第三版.ppt
- 学校后勤部仓库管理年终总结.pptx VIP
- 市政和交通基础设施专项规划审批办事指南.doc VIP
- ABS材质证明书模版.docx VIP
- 中国传媒大学《视听语言(第3版)》课件-第一章 影像 PPT-第二节 景别角度.pptx VIP
- 学校后勤部仓库管理年终总结.pptx VIP
- 政府采购代理机构内部监督管理制度.docx VIP
- 特殊教育康复师岗位招聘考试试卷及答案.doc VIP
原创力文档


文档评论(0)