2025年大数据分析师执业考试试卷及答案.docxVIP

下载本文档

0
0
约1.03万字
约 26页
2025-08-15 发布于四川
举报
版权申诉

2025年大数据分析师执业考试试卷及答案.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2025年大数据分析师执业考试试卷及答案

一、单项选择题（共20题，每题1分，共20分）

1.以下关于数据仓库（DataWarehouse）与数据湖（DataLake）的描述中，错误的是：

A.数据仓库通常存储结构化数据，数据湖可存储结构化、半结构化、非结构化数据

B.数据仓库在数据进入时完成清洗和转换（ETL），数据湖在使用时进行清洗和转换（ELT）

C.数据仓库的主要服务对象是业务分析人员，数据湖的主要服务对象是数据科学家

D.数据仓库的存储成本通常高于数据湖

答案：D（数据湖因存储原始数据且使用分布式存储，成本通常低于数据仓库）

2.某电商平台用户行为日志中，“event_time”字段格式为“2024-10-05T14:30:22+08:00”，需提取该时间的小时部分（如14），在HiveSQL中应使用的函数是：

A.hour(from_utc_timestamp(event_time,Asia/Shanghai))

B.hour(to_utc_timestamp(event_time,Asia/Shanghai))

C.hour(event_time)

D.hour(from_unixtime(unix_timestamp(event_time)))

答案：A（需先将带时区的时间转换为本地时间，再提取小时）

3.以下哪种场景最适合使用K-means聚类算法？

A.预测用户下个月的消费金额

B.识别电商用户中的高价值、中价值、低价值群体

C.判断用户评论是正面还是负面

D.分析广告点击率与投放时间的相关性

答案：B（K-means用于无监督分类，适合用户分群）

4.某数据集存在严重的数据倾斜（DataSkew），在Spark任务中最可能观察到的现象是：

A.所有Executor的CPU使用率均衡

B.部分Executor任务超时，其他Executor空闲

C.任务运行时间显著缩短

D.Shuffle阶段数据传输量大幅减少

答案：B（数据倾斜导致部分分区数据量过大，对应Executor处理时间过长）

5.在Python的Pandas库中，若要将DataFrame的索引从0开始的整数索引改为某列“user_id”，应使用的方法是：

A.df.set_index(user_id,drop=False)

B.df.reset_index(user_id)

C.df.reindex(columns=[user_id])

D.df.rename(index={user_id:new_index})

答案：A（set_index用于将指定列设为索引，drop=False保留原列）

6.以下关于A/B测试的描述中，正确的是：

A.实验分组时，需保证实验组与对照组的用户特征完全相同

B.实验样本量越大越好，因此无需计算最小样本量

C.若实验指标的p值小于0.05，则可认为实验结果具有统计显著性

D.A/B测试只能用于网页设计优化，无法用于算法模型效果验证

答案：C（p值0.05通常作为统计显著性的判断标准）

7.某数据集包含“性别”（男/女）、“年龄”（连续值）、“月收入”（连续值）、“是否购买会员”（是/否）四个字段，若要分析“年龄”对“是否购买会员”的影响，最适合的预处理步骤是：

A.对“性别”进行独热编码（One-HotEncoding）

B.对“年龄”进行分箱（Binning）处理

C.对“月收入”进行标准化（Z-Score）

D.对“是否购买会员”进行标签编码（LabelEncoding）

答案：B（连续变量与二分类目标的关系分析中，分箱可简化非线性关系）

8.在Hadoop生态中，负责资源管理和任务调度的组件是：

A.HDFS

B.YARN

C.MapReduce

D.HBase

答案：B（YARN（YetAnotherResourceNegotiator）负责资源管理）

9.以下关于关联规则挖掘（Apriori算法）的描述中，错误的是：

A.支持度（Support）表示包含某商品组合的订单占总订单的比例

B.置信度（Confidence）表示购买商品A后购买商品B的条件概率

C.提升度（Lift）大于1表示商品A和B的关联是偶然的

D.Apriori算法通过先验性质（频繁项集的子集必频繁）减少计算量

答案：C（提升度1表示正相关，1表示负相关，=1表示独立）

10.某时序数据集的自相关函数（

您可能关注的文档

文档评论（0）

欣欣 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年大数据分析师执业考试试卷及答案.docxVIP