2025年大数据分析考试题及答案.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年大数据分析考试题及答案

一、单项选择题(每题2分,共20分)

1.某电商平台用户行为数据中,“支付时间”字段存在大量“1970-01-0100:00:00”的异常值,最可能的原因是()。

A.数据采集时时间戳未正确转换

B.用户故意填写错误时间

C.数据库字段类型设置为字符串

D.数据传输过程中发生加密错误

答案:A

2.以下特征工程操作中,属于“特征构造”而非“特征选择”的是()。

A.使用卡方检验筛选与目标变量相关的特征

B.将用户“访问频率”与“平均停留时长”相乘提供“活跃指数”

C.通过随机森林的特征重要性排序剔除低贡献特征

D.对类别型特征“商品类目”进行独热编码

答案:B

3.某分布式计算任务中,Spark的shuffle操作耗时占比达70%,优化该任务的关键是()。

A.增加Executor的CPU核心数

B.调整shuffle分区数,减少数据传输量

C.提升Driver节点的内存配置

D.改用HadoopMapReduce重新实现

答案:B

4.对于时序预测问题,若数据存在明显的周周期性(7天)和年周期性(365天),最优的特征构造方法是()。

A.提取时间戳的“小时”“星期几”“月份”作为特征

B.计算当前值与前7天、前365天的差值作为滞后特征

C.使用傅里叶变换分解周期性成分

D.对时间戳进行多项式扩展(如t2、t3)

答案:C

5.以下关于数据倾斜的描述,错误的是()。

A.数据倾斜可能导致部分任务节点内存溢出

B.对倾斜键添加随机前缀可缓解HadoopMapReduce的倾斜问题

C.Spark中可通过调整spark.sql.shuffle.partitions参数均衡数据分布

D.数据倾斜仅发生在聚合操作(如groupby)中

答案:D

6.训练一个预测用户购买意愿的分类模型,样本中“购买”标签占比仅2%,以下处理方式最不合理的是()。

A.使用SMOTE算法提供合成正样本

B.调整模型损失函数的类别权重(正样本权重设为50)

C.采用分层抽样保持测试集的类别分布

D.直接删除负样本使正负样本比例1:1

答案:D

7.某企业需构建实时风控系统,要求延迟低于100ms,应优先选择的技术栈是()。

A.Kafka(消息队列)+SparkStreaming(微批处理)

B.Flink(流处理)+Redis(实时存储)

C.HBase(列式存储)+MapReduce(批量计算)

D.Elasticsearch(搜索引擎)+Airflow(任务调度)

答案:B

8.评估一个回归模型的预测效果时,若MAE(平均绝对误差)远小于RMSE(均方根误差),说明()。

A.模型存在多个较大的预测误差

B.模型预测误差的分布较为集中

C.模型在多数样本上预测准确,少数样本误差极大

D.模型整体偏差较小

答案:C

9.以下关于联邦学习的描述,正确的是()。

A.联邦学习要求所有参与方将原始数据上传至中心服务器

B.横向联邦学习适用于用户重叠多、特征重叠少的场景

C.联邦学习的核心是在数据不出域的前提下联合训练模型

D.联邦学习无需考虑通信成本和模型收敛速度

答案:C

10.对某社交平台用户评论进行情感分析(积极/消极),文本中存在大量网络用语(如“绝绝子”“栓Q”),最有效的处理方法是()。

A.直接删除所有网络用语

B.使用预训练语言模型(如BERT)结合领域数据微调

C.人工标注网络用语的情感倾向并构建词典

D.对文本进行词干提取(Stemming)

答案:B

二、填空题(每题2分,共20分)

1.数据清洗中,处理缺失值的常用方法包括删除记录、______和______(任填两种)。

答案:均值/中位数填充;模型预测填充

2.特征缩放的两种主要方法是______和______。

答案:归一化(Min-MaxScaling);标准化(Z-ScoreScaling)

3.SparkRDD的两个核心特性是______和______。

答案:不可变性;弹性分布式

4.随机森林中,“随机”体现在______和______两个方面。

答案:随机选择样本(自助采样);随机选择特征子集

5.时间序列的四大组成部分是______、______、周期性和随机波动。

答案:趋势性;季节性

6.K

文档评论(0)

欣欣 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档