- 1
- 0
- 约6.38千字
- 约 15页
- 2026-04-20 发布于四川
- 举报
2026年大数据分析师数据分析能力测试试卷及答案解析
1.单项选择题(每题2分,共20分)
1.1在Hadoop生态中,负责资源管理与任务调度的组件是
A.HDFS??B.YARN??C.MapReduce??D.Hive
答案:B
解析:YARN(YetAnotherResourceNegotiator)是Hadoop2.x引入的资源管理层,负责集群资源分配与作业调度。
1.2给定DataFramedf,列amount存在缺失值,下列PySpark语句可统计非缺失记录条数的是
A.df.filter(amountISNULL).count()
B.df.filter(amountISNOTNULL).count()
C.df.na.drop(subset=[amount]).count()
D.选项B与C均可
答案:D
解析:B直接过滤非空,C先删除缺失再计数,二者等价。
1.3在SQL优化器中,选择最优连接顺序的规则集称为
A.启发式规则??B.代价模型??C.查询重写??D.物理映射
答案:B
解析:代价模型(Cost-basedOptimization,CBO)通过统计信息估算不同连接顺序的代价并选优。
1.4下列关于PCA的叙述正确的是
A.主成分方向是原始特征协方差矩阵的最大特征值对应特征向量
B.主成分数量
原创力文档

文档评论(0)