2025年大数据分析师职业技能测试卷及答案.docxVIP

  • 0
  • 0
  • 约1.05万字
  • 约 26页
  • 2026-01-22 发布于四川
  • 举报

2025年大数据分析师职业技能测试卷及答案.docx

2025年大数据分析师职业技能测试卷及答案

一、单项选择题(每题1分,共30分。每题只有一个正确答案,请将正确选项字母填在括号内)

1.在Hadoop生态中,负责资源管理与任务调度的组件是()

A.HDFS??B.YARN??C.MapReduce??D.Hive

答案:B

2.某电商公司用户行为日志量每日新增200TB,若采用列式存储格式,下列选项中最适合的是()

A.Avro??B.Parquet??C.SequenceFile??D.ORC

答案:B

3.使用SparkSQL执行以下语句:

SELECTcity,COUNT()AScnt

FROMuser

WHEREdtBETWEENAND

GROUPBYcity

HAVINGcnt1000;

若dt为分区字段,则优化器可自动下推的操作为()

A.谓词下推??B.列裁剪??C.常量折叠??D.聚合下推

答案:A

4.在Flink流处理中,实现ExactlyOnce语义的核心机制是()

A.Checkpoint??B.Savepoint??C.Watermark??D.StateTTL

答案:A

5.某时序数据库写入QPS峰值达500万,要求读写延迟5ms,下列存储引擎最合适的是()

A.LSMTree??B.B+Tree??C.Hash??D.Bitmap

答案:A

6.使用Python的pandas读取一个10GBCSV文件时,为避免内存溢出,最佳实践是()

A.使用read_csv()并设置dtype=str

B.使用read_csv()并设置chunksize=106

C.先压缩为gzip再读取

D.转换为Excel再读取

答案:B

7.在Hive中,以下哪种分桶策略能最大程度避免数据倾斜()

A.随机分桶??B.基于hash(user_id)分桶??C.基于range分桶??D.基于日期分桶

答案:B

8.某机器学习模型在训练集AUC=0.98,验证集AUC=0.72,其最可能的问题是()

A.欠拟合??B.过拟合??C.特征泄露??D.标签不平衡

答案:B

9.在Kafka中,以下参数可控制消息在Topic中保留的最长时间()

A.retention.ms??B.segment.ms??C.max.poll.interval.ms??D.request.timeout.ms

答案:A

10.使用SQL计算用户留存率时,最常用的连接方式是()

A.LEFTJOIN??B.INNERJOIN??C.RIGHTJOIN??D.FULLOUTERJOIN

答案:A

11.在数据仓库分层架构中,DWD层的主要职责是()

A.原始数据备份??B.明细数据清洗与规范化??C.汇总指标计算??D.维度建模

答案:B

12.以下关于数据倾斜的描述,错误的是()

A.大表与大表join时,空值集中会导致倾斜

B.使用mapsidejoin可完全消除倾斜

C.加盐(salt)可缓解reduce端热点

D.动态分区过多可能触发倾斜

答案:B

13.在Airflow中,任务依赖通过以下哪个字段声明()

A.depends_on_past??B.upstream_tasks??C.downstream_tasks??D.retries

答案:B

14.使用XGBoost时,控制过拟合效果最显著的参数是()

A.max_depth??B.subsample??C.learning_rate??D.gamma

答案:A

15.某业务要求实时大屏延迟≤1s,技术选型应优先考虑()

A.SparkStreaming??B.FlinkCEP??C.Storm??D.Flume

答案:B

16.在数据治理中,衡量数据唯一性的指标是()

A.Completeness??B.Consistency??C.Uniqueness??D.Timeliness

答案:C

17.使用Elasticsearch进行聚合分析时,为避免分片误差,应设置的参数是()

A.size=0??B.shard_size??C.timeout??D.search_type=dfs_query_then_fetch

答案:D

18

文档评论(0)

1亿VIP精品文档

相关文档