2025年大数据分析师执业考试试卷及答案.docxVIP

2025年大数据分析师执业考试试卷及答案.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年大数据分析师执业考试试卷及答案

一、单项选择题(共20题,每题1分,共20分)

1.以下关于数据仓库(DataWarehouse)与数据湖(DataLake)的描述中,错误的是:

A.数据仓库通常存储结构化数据,数据湖可存储结构化、半结构化、非结构化数据

B.数据仓库在数据进入时完成清洗和转换(ETL),数据湖在使用时进行清洗和转换(ELT)

C.数据仓库的主要服务对象是业务分析人员,数据湖的主要服务对象是数据科学家

D.数据仓库的存储成本通常高于数据湖

答案:D(数据湖因存储原始数据且使用分布式存储,成本通常低于数据仓库)

2.某电商平台用户行为日志中,“event_time”字段格式为“2024-10-05T14:30:22+08:00”,需提取该时间的小时部分(如14),在HiveSQL中应使用的函数是:

A.hour(from_utc_timestamp(event_time,Asia/Shanghai))

B.hour(to_utc_timestamp(event_time,Asia/Shanghai))

C.hour(event_time)

D.hour(from_unixtime(unix_timestamp(event_time)))

答案:A(需先将带时区的时间转换为本地时间,再提取小时)

3.以下哪种场景最适合使用K-means聚类算法?

A.预测用户下个月的消费金额

B.识别电商用户中的高价值、中价值、低价值群体

C.判断用户评论是正面还是负面

D.分析广告点击率与投放时间的相关性

答案:B(K-means用于无监督分类,适合用户分群)

4.某数据集存在严重的数据倾斜(DataSkew),在Spark任务中最可能观察到的现象是:

A.所有Executor的CPU使用率均衡

B.部分Executor任务超时,其他Executor空闲

C.任务运行时间显著缩短

D.Shuffle阶段数据传输量大幅减少

答案:B(数据倾斜导致部分分区数据量过大,对应Executor处理时间过长)

5.在Python的Pandas库中,若要将DataFrame的索引从0开始的整数索引改为某列“user_id”,应使用的方法是:

A.df.set_index(user_id,drop=False)

B.df.reset_index(user_id)

C.df.reindex(columns=[user_id])

D.df.rename(index={user_id:new_index})

答案:A(set_index用于将指定列设为索引,drop=False保留原列)

6.以下关于A/B测试的描述中,正确的是:

A.实验分组时,需保证实验组与对照组的用户特征完全相同

B.实验样本量越大越好,因此无需计算最小样本量

C.若实验指标的p值小于0.05,则可认为实验结果具有统计显著性

D.A/B测试只能用于网页设计优化,无法用于算法模型效果验证

答案:C(p值0.05通常作为统计显著性的判断标准)

7.某数据集包含“性别”(男/女)、“年龄”(连续值)、“月收入”(连续值)、“是否购买会员”(是/否)四个字段,若要分析“年龄”对“是否购买会员”的影响,最适合的预处理步骤是:

A.对“性别”进行独热编码(One-HotEncoding)

B.对“年龄”进行分箱(Binning)处理

C.对“月收入”进行标准化(Z-Score)

D.对“是否购买会员”进行标签编码(LabelEncoding)

答案:B(连续变量与二分类目标的关系分析中,分箱可简化非线性关系)

8.在Hadoop生态中,负责资源管理和任务调度的组件是:

A.HDFS

B.YARN

C.MapReduce

D.HBase

答案:B(YARN(YetAnotherResourceNegotiator)负责资源管理)

9.以下关于关联规则挖掘(Apriori算法)的描述中,错误的是:

A.支持度(Support)表示包含某商品组合的订单占总订单的比例

B.置信度(Confidence)表示购买商品A后购买商品B的条件概率

C.提升度(Lift)大于1表示商品A和B的关联是偶然的

D.Apriori算法通过先验性质(频繁项集的子集必频繁)减少计算量

答案:C(提升度1表示正相关,1表示负相关,=1表示独立)

10.某时序数据集的自相关函数(

文档评论(0)

欣欣 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档