2025年数据科学与大数据技术专业考试题及答案.docxVIP

2025年数据科学与大数据技术专业考试题及答案.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年数据科学与大数据技术专业考试题及答案

一、单项选择题(每题2分,共20分)

1.以下关于数据类型的描述中,错误的是()

A.身高(cm)属于连续型数值数据

B.用户性别(男/女)属于名义型分类数据

C.商品评分(1-5星)属于有序型分类数据

D.日期(如2025-03-15)属于定比型数据

2.若某数据集的偏度(Skewness)为-1.2,峰度(Kurtosis)为3.8,说明该数据分布()

A.左偏,尾部比正态分布更重

B.右偏,尾部比正态分布更轻

C.左偏,尾部比正态分布更轻

D.右偏,尾部比正态分布更重

3.以下机器学习算法中,不属于集成学习(EnsembleLearning)的是()

A.随机森林(RandomForest)

B.梯度提升决策树(GBDT)

C.K近邻(KNN)

D.XGBoost

4.对于高维稀疏数据(如文本TF-IDF特征),最适合的降维方法是()

A.主成分分析(PCA)

B.线性判别分析(LDA)

C.奇异值分解(SVD)

D.t-分布随机邻域嵌入(t-SNE)

5.以下关于HadoopHDFS的描述中,正确的是()

A.默认块大小为32MB,适合存储大量小文件

B.元数据(NameNode)存储文件的位置信息,支持高并发读写

C.数据副本数默认为3,通过机架感知策略提高可靠性

D.支持随机读写,适合实时查询场景

6.在Spark中,RDD(弹性分布式数据集)的“持久化(Persist)”操作主要用于()

A.将RDD数据写入磁盘,避免内存溢出

B.缓存RDD到内存或磁盘,减少重复计算

C.强制触发行动操作(Action),生成计算结果

D.将RDD转换为DataFrame,利用结构化查询优化

7.某分类模型的混淆矩阵如下(行:真实类别,列:预测类别):

真实正类:TP=80,FN=20;真实负类:FP=10,TN=90。则模型的F1分数为()

A.0.842

B.0.889

C.0.900

D.0.941

8.以下关于Kafka的描述中,错误的是()

A.基于发布-订阅模式,支持高吞吐量消息传输

B.消息存储在“主题(Topic)”中,按分区(Partition)分布式存储

C.消费者通过偏移量(Offset)记录已消费位置,支持断点续传

D.适合实时数据流处理,但不支持离线数据回放

9.在数据清洗中,处理缺失值的方法不包括()

A.用特征均值/中位数填充

B.删除缺失值超过阈值的样本或特征

C.用KNN算法预测缺失值

D.直接保留缺失值,由模型自行处理

10.对于时间序列预测任务,以下特征中最不相关的是()

A.过去7天的平均值

B.当天是否为节假日

C.特征变量的滞后1期值(t-1)

D.特征变量的标准差(全局统计量)

二、填空题(每题2分,共20分)

1.统计学中,反映数据离散程度的常用指标有方差、标准差、______和四分位距。

2.机器学习中,过拟合的本质是模型对______的拟合能力过强,导致泛化能力下降。

3.关联规则挖掘中,支持度(Support)的计算公式为______。

4.HBase的表数据按______排序存储,底层依赖HDFS作为存储系统。

5.梯度下降算法中,每次仅用1个样本计算梯度的方法称为______。

6.自然语言处理(NLP)中,将文本转换为向量的经典方法有词袋模型(BagofWords)和______。

7.实时数据处理框架Flink的核心抽象是______,支持事件时间(EventTime)和处理时间(ProcessingTime)。

8.分类问题中,若正负样本比例为1:100,常用的评估指标是______(如精确率、召回率、F1分数、AUC-ROC等)。

9.分布式计算中,______是指将计算任务移动到数据所在的节点执行,以减少网络传输开销。

10.强化学习(ReinforcementLearning)的三要素是状态(State)、动作(Action)和______。

三、简答题(每题8分,共40分)

1.简述数据标准化(Z-ScoreNormalization)与归一化(Min-MaxScaling)的区别及应用场景。

2.对比监督学习与无监督学习的核心差异,并各举两个典型算法。

3.说明分布式计算中“数据本地性(

文档评论(0)

都那样! + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档