- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年大数据分析师执业考试试卷及答案
一、单项选择题(共20题,每题1分,共20分)
1.以下关于数据仓库(DataWarehouse)与数据湖(DataLake)的描述中,错误的是:
A.数据仓库通常存储结构化数据,数据湖可存储结构化、半结构化、非结构化数据
B.数据仓库在数据进入时完成清洗和转换(ETL),数据湖在使用时进行清洗和转换(ELT)
C.数据仓库的主要服务对象是业务分析人员,数据湖的主要服务对象是数据科学家
D.数据仓库的存储成本通常高于数据湖
答案:D(数据湖因存储原始数据且使用分布式存储,成本通常低于数据仓库)
2.某电商平台用户行为日志中,“event_time”字段格式为“2024-10-05T14:30:22+08:00”,需提取该时间的小时部分(如14),在HiveSQL中应使用的函数是:
A.hour(from_utc_timestamp(event_time,Asia/Shanghai))
B.hour(to_utc_timestamp(event_time,Asia/Shanghai))
C.hour(event_time)
D.hour(from_unixtime(unix_timestamp(event_time)))
答案:A(需先将带时区的时间转换为本地时间,再提取小时)
3.以下哪种场景最适合使用K-means聚类算法?
A.预测用户下个月的消费金额
B.识别电商用户中的高价值、中价值、低价值群体
C.判断用户评论是正面还是负面
D.分析广告点击率与投放时间的相关性
答案:B(K-means用于无监督分类,适合用户分群)
4.某数据集存在严重的数据倾斜(DataSkew),在Spark任务中最可能观察到的现象是:
A.所有Executor的CPU使用率均衡
B.部分Executor任务超时,其他Executor空闲
C.任务运行时间显著缩短
D.Shuffle阶段数据传输量大幅减少
答案:B(数据倾斜导致部分分区数据量过大,对应Executor处理时间过长)
5.在Python的Pandas库中,若要将DataFrame的索引从0开始的整数索引改为某列“user_id”,应使用的方法是:
A.df.set_index(user_id,drop=False)
B.df.reset_index(user_id)
C.df.reindex(columns=[user_id])
D.df.rename(index={user_id:new_index})
答案:A(set_index用于将指定列设为索引,drop=False保留原列)
6.以下关于A/B测试的描述中,正确的是:
A.实验分组时,需保证实验组与对照组的用户特征完全相同
B.实验样本量越大越好,因此无需计算最小样本量
C.若实验指标的p值小于0.05,则可认为实验结果具有统计显著性
D.A/B测试只能用于网页设计优化,无法用于算法模型效果验证
答案:C(p值0.05通常作为统计显著性的判断标准)
7.某数据集包含“性别”(男/女)、“年龄”(连续值)、“月收入”(连续值)、“是否购买会员”(是/否)四个字段,若要分析“年龄”对“是否购买会员”的影响,最适合的预处理步骤是:
A.对“性别”进行独热编码(One-HotEncoding)
B.对“年龄”进行分箱(Binning)处理
C.对“月收入”进行标准化(Z-Score)
D.对“是否购买会员”进行标签编码(LabelEncoding)
答案:B(连续变量与二分类目标的关系分析中,分箱可简化非线性关系)
8.在Hadoop生态中,负责资源管理和任务调度的组件是:
A.HDFS
B.YARN
C.MapReduce
D.HBase
答案:B(YARN(YetAnotherResourceNegotiator)负责资源管理)
9.以下关于关联规则挖掘(Apriori算法)的描述中,错误的是:
A.支持度(Support)表示包含某商品组合的订单占总订单的比例
B.置信度(Confidence)表示购买商品A后购买商品B的条件概率
C.提升度(Lift)大于1表示商品A和B的关联是偶然的
D.Apriori算法通过先验性质(频繁项集的子集必频繁)减少计算量
答案:C(提升度1表示正相关,1表示负相关,=1表示独立)
10.某时序数据集的自相关函数(
您可能关注的文档
- 2025年传染病疫情管理及食源性疾病等相关知识培训试题(附答案).docx
- 2025年传染病疫情管理及食源性疾病等相关知识培训试题(附答案).docx
- 2025年传染病疫情信息报告管理培训考核试题及答案.docx
- 2025年传染病疫情信息管理培训测试题带答案.docx
- 2025年传染病与突发公共卫生事件报告管理技术培训测试题(附答案).docx
- 2025年传染病与突发公共卫生事件报告管理技术培训试题(附答案).docx
- 2025年传染病与突发公共卫生事件报告管理培训测试题(附答案).docx
- 2025年传染病预防控制副高职称考试题(附答案).docx
- 2025年传染病知识培训考核试题(附答案).docx
- 2025年传染病知识培训试卷及答案.docx
文档评论(0)