2025年大数据分析考试题及答案.docxVIP

下载本文档

1
0
约7.95千字
约 21页
2025-11-08 发布于四川
举报
版权申诉

2025年大数据分析考试题及答案.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2025年大数据分析考试题及答案

一、单项选择题（每题2分，共20分）

1.某电商平台用户行为数据中，“支付时间”字段存在大量“1970-01-0100:00:00”的异常值，最可能的原因是（）。

A.数据采集时时间戳未正确转换

B.用户故意填写错误时间

C.数据库字段类型设置为字符串

D.数据传输过程中发生加密错误

答案：A

2.以下特征工程操作中，属于“特征构造”而非“特征选择”的是（）。

A.使用卡方检验筛选与目标变量相关的特征

B.将用户“访问频率”与“平均停留时长”相乘提供“活跃指数”

C.通过随机森林的特征重要性排序剔除低贡献特征

D.对类别型特征“商品类目”进行独热编码

答案：B

3.某分布式计算任务中，Spark的shuffle操作耗时占比达70%，优化该任务的关键是（）。

A.增加Executor的CPU核心数

B.调整shuffle分区数，减少数据传输量

C.提升Driver节点的内存配置

D.改用HadoopMapReduce重新实现

答案：B

4.对于时序预测问题，若数据存在明显的周周期性（7天）和年周期性（365天），最优的特征构造方法是（）。

A.提取时间戳的“小时”“星期几”“月份”作为特征

B.计算当前值与前7天、前365天的差值作为滞后特征

C.使用傅里叶变换分解周期性成分

D.对时间戳进行多项式扩展（如t2、t3）

答案：C

5.以下关于数据倾斜的描述，错误的是（）。

A.数据倾斜可能导致部分任务节点内存溢出

B.对倾斜键添加随机前缀可缓解HadoopMapReduce的倾斜问题

C.Spark中可通过调整spark.sql.shuffle.partitions参数均衡数据分布

D.数据倾斜仅发生在聚合操作（如groupby）中

答案：D

6.训练一个预测用户购买意愿的分类模型，样本中“购买”标签占比仅2%，以下处理方式最不合理的是（）。

A.使用SMOTE算法提供合成正样本

B.调整模型损失函数的类别权重（正样本权重设为50）

C.采用分层抽样保持测试集的类别分布

D.直接删除负样本使正负样本比例1:1

答案：D

7.某企业需构建实时风控系统，要求延迟低于100ms，应优先选择的技术栈是（）。

A.Kafka（消息队列）+SparkStreaming（微批处理）

B.Flink（流处理）+Redis（实时存储）

C.HBase（列式存储）+MapReduce（批量计算）

D.Elasticsearch（搜索引擎）+Airflow（任务调度）

答案：B

8.评估一个回归模型的预测效果时，若MAE（平均绝对误差）远小于RMSE（均方根误差），说明（）。

A.模型存在多个较大的预测误差

B.模型预测误差的分布较为集中

C.模型在多数样本上预测准确，少数样本误差极大

D.模型整体偏差较小

答案：C

9.以下关于联邦学习的描述，正确的是（）。

A.联邦学习要求所有参与方将原始数据上传至中心服务器

B.横向联邦学习适用于用户重叠多、特征重叠少的场景

C.联邦学习的核心是在数据不出域的前提下联合训练模型

D.联邦学习无需考虑通信成本和模型收敛速度

答案：C

10.对某社交平台用户评论进行情感分析（积极/消极），文本中存在大量网络用语（如“绝绝子”“栓Q”），最有效的处理方法是（）。

A.直接删除所有网络用语

B.使用预训练语言模型（如BERT）结合领域数据微调

C.人工标注网络用语的情感倾向并构建词典

D.对文本进行词干提取（Stemming）

答案：B

二、填空题（每题2分，共20分）

1.数据清洗中，处理缺失值的常用方法包括删除记录、______和______（任填两种）。

答案：均值/中位数填充；模型预测填充

2.特征缩放的两种主要方法是______和______。

答案：归一化（Min-MaxScaling）；标准化（Z-ScoreScaling）

3.SparkRDD的两个核心特性是______和______。

答案：不可变性；弹性分布式

4.随机森林中，“随机”体现在______和______两个方面。

答案：随机选择样本（自助采样）；随机选择特征子集

5.时间序列的四大组成部分是______、______、周期性和随机波动。

答案：趋势性；季节性

6.K

您可能关注的文档

文档评论（0）

欣欣 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年大数据分析考试题及答案.docxVIP