2025年数据科学与大数据技术职业考试试卷及答案.docxVIP

下载本文档

1
0
约7.16千字
约 19页
2025-11-02 发布于四川
举报
版权申诉

2025年数据科学与大数据技术职业考试试卷及答案.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2025年数据科学与大数据技术职业考试试卷及答案

一、单项选择题（共20题，每题2分，共40分）

1.以下关于混淆矩阵的描述中，正确的是（）。

A.精确率=TP/(TP+FN)

B.召回率=TP/(TP+FP)

C.F1分数是精确率和召回率的调和平均

D.ROC曲线下面积（AUC）越小，模型性能越好

2.在特征工程中，对类别型特征“用户性别”（取值为男/女/其他）进行编码时，最适合的方法是（）。

A.标签编码（LabelEncoding）

B.独热编码（One-HotEncoding）

C.目标编码（TargetEncoding）

D.二进制编码（BinaryEncoding）

3.以下不属于Hadoop生态系统核心组件的是（）。

A.HDFS

B.YARN

C.Spark

D.MapReduce

4.假设某数据集服从正态分布N(μ,σ2)，若样本均值为10，样本标准差为2，样本量为100，则总体均值的95%置信区间为（）（Z值取1.96）。

A.[9.608,10.392]

B.[9.804,10.196]

C.[9.96,10.04]

D.[9.216,10.784]

5.关于支持向量机（SVM）的核函数，以下说法错误的是（）。

A.线性核适用于线性可分的数据

B.多项式核的复杂度与阶数d正相关

C.高斯核（RBF核）能处理非线性可分问题

D.核函数的作用是将特征映射到低维空间

6.在Spark中，RDD的转换操作（Transformation）是（）。

A.立即执行并返回结果的操作

B.延迟执行的操作，需要行动操作触发

C.只能对单个RDD进行操作

D.会改变原始RDD的数据

7.以下哪种方法不能用于检测数据中的异常值？（）

A.Z-score检验

B.箱线图分析

C.主成分分析（PCA）

D.逻辑回归

8.假设某分类模型的预测结果中，TP=80，FP=20，FN=10，TN=90，则精确率为（）。

A.80%

B.88.89%

C.88.24%

D.90%

9.在时间序列预测中，ARIMA模型的参数(p,d,q)分别代表（）。

A.自回归阶数、差分次数、移动平均阶数

B.移动平均阶数、差分次数、自回归阶数

C.自回归阶数、移动平均阶数、差分次数

D.差分次数、自回归阶数、移动平均阶数

10.以下关于K-means聚类的描述，错误的是（）。

A.需要预先指定聚类数k

B.对初始质心的选择敏感

C.适用于非凸形状的簇

D.采用欧氏距离计算样本间相似度

11.在Python的Pandas库中，若要将DataFrame的索引重置为从0开始的连续整数，应使用（）方法。

A.df.reset_index()

B.df.reindex()

C.df.index=range(len(df))

D.df.set_index()

12.以下不属于大数据处理的“4V”特征的是（）。

A.大量（Volume）

B.高速（Velocity）

C.多样（Variety）

D.价值（Value）

E.准确（Veracity）

13.关于梯度下降法，以下说法正确的是（）。

A.批量梯度下降（BGD）收敛速度最快

B.随机梯度下降（SGD）每次使用全部样本计算梯度

C.小批量梯度下降（MBGD）是BGD和SGD的折中

D.梯度下降法一定能找到全局最优解

14.在Hive中，以下哪种语句用于创建外部表？（）

A.CREATETABLE

B.CREATEEXTERNALTABLE

C.CREATEINTERNALTABLE

D.CREATEMANAGEDTABLE

15.假设某数据集有1000条记录，特征维度为50，若使用主成分分析（PCA）将维度降至10，需要计算的协方差矩阵的维度是（）。

A.10×10

B.50×50

C.1000×1000

D.50×10

16.以下哪种机器学习算法属于无监督学习？（）

A.逻辑回归

B.随机森林

C.K近邻（KNN）

D.关联规则挖掘（Apriori）

17.在SparkSQL中，DataFrame的“select”方法与“filter”方法的主要区别是（）

您可能关注的文档

文档评论（0）

都那样！ + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年数据科学与大数据技术职业考试试卷及答案.docxVIP