2026年大数据分析师数据分析能力测试试卷及答案解析.docxVIP

  • 1
  • 0
  • 约6.38千字
  • 约 15页
  • 2026-04-20 发布于四川
  • 举报

2026年大数据分析师数据分析能力测试试卷及答案解析.docx

2026年大数据分析师数据分析能力测试试卷及答案解析

1.单项选择题(每题2分,共20分)

1.1在Hadoop生态中,负责资源管理与任务调度的组件是

A.HDFS??B.YARN??C.MapReduce??D.Hive

答案:B

解析:YARN(YetAnotherResourceNegotiator)是Hadoop2.x引入的资源管理层,负责集群资源分配与作业调度。

1.2给定DataFramedf,列amount存在缺失值,下列PySpark语句可统计非缺失记录条数的是

A.df.filter(amountISNULL).count()

B.df.filter(amountISNOTNULL).count()

C.df.na.drop(subset=[amount]).count()

D.选项B与C均可

答案:D

解析:B直接过滤非空,C先删除缺失再计数,二者等价。

1.3在SQL优化器中,选择最优连接顺序的规则集称为

A.启发式规则??B.代价模型??C.查询重写??D.物理映射

答案:B

解析:代价模型(Cost-basedOptimization,CBO)通过统计信息估算不同连接顺序的代价并选优。

1.4下列关于PCA的叙述正确的是

A.主成分方向是原始特征协方差矩阵的最大特征值对应特征向量

B.主成分数量

文档评论(0)

1亿VIP精品文档

相关文档