- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年数据科学与大数据技术职业考试试卷及答案
一、单项选择题(共20题,每题2分,共40分)
1.以下关于混淆矩阵的描述中,正确的是()。
A.精确率=TP/(TP+FN)
B.召回率=TP/(TP+FP)
C.F1分数是精确率和召回率的调和平均
D.ROC曲线下面积(AUC)越小,模型性能越好
2.在特征工程中,对类别型特征“用户性别”(取值为男/女/其他)进行编码时,最适合的方法是()。
A.标签编码(LabelEncoding)
B.独热编码(One-HotEncoding)
C.目标编码(TargetEncoding)
D.二进制编码(BinaryEncoding)
3.以下不属于Hadoop生态系统核心组件的是()。
A.HDFS
B.YARN
C.Spark
D.MapReduce
4.假设某数据集服从正态分布N(μ,σ2),若样本均值为10,样本标准差为2,样本量为100,则总体均值的95%置信区间为()(Z值取1.96)。
A.[9.608,10.392]
B.[9.804,10.196]
C.[9.96,10.04]
D.[9.216,10.784]
5.关于支持向量机(SVM)的核函数,以下说法错误的是()。
A.线性核适用于线性可分的数据
B.多项式核的复杂度与阶数d正相关
C.高斯核(RBF核)能处理非线性可分问题
D.核函数的作用是将特征映射到低维空间
6.在Spark中,RDD的转换操作(Transformation)是()。
A.立即执行并返回结果的操作
B.延迟执行的操作,需要行动操作触发
C.只能对单个RDD进行操作
D.会改变原始RDD的数据
7.以下哪种方法不能用于检测数据中的异常值?()
A.Z-score检验
B.箱线图分析
C.主成分分析(PCA)
D.逻辑回归
8.假设某分类模型的预测结果中,TP=80,FP=20,FN=10,TN=90,则精确率为()。
A.80%
B.88.89%
C.88.24%
D.90%
9.在时间序列预测中,ARIMA模型的参数(p,d,q)分别代表()。
A.自回归阶数、差分次数、移动平均阶数
B.移动平均阶数、差分次数、自回归阶数
C.自回归阶数、移动平均阶数、差分次数
D.差分次数、自回归阶数、移动平均阶数
10.以下关于K-means聚类的描述,错误的是()。
A.需要预先指定聚类数k
B.对初始质心的选择敏感
C.适用于非凸形状的簇
D.采用欧氏距离计算样本间相似度
11.在Python的Pandas库中,若要将DataFrame的索引重置为从0开始的连续整数,应使用()方法。
A.df.reset_index()
B.df.reindex()
C.df.index=range(len(df))
D.df.set_index()
12.以下不属于大数据处理的“4V”特征的是()。
A.大量(Volume)
B.高速(Velocity)
C.多样(Variety)
D.价值(Value)
E.准确(Veracity)
13.关于梯度下降法,以下说法正确的是()。
A.批量梯度下降(BGD)收敛速度最快
B.随机梯度下降(SGD)每次使用全部样本计算梯度
C.小批量梯度下降(MBGD)是BGD和SGD的折中
D.梯度下降法一定能找到全局最优解
14.在Hive中,以下哪种语句用于创建外部表?()
A.CREATETABLE
B.CREATEEXTERNALTABLE
C.CREATEINTERNALTABLE
D.CREATEMANAGEDTABLE
15.假设某数据集有1000条记录,特征维度为50,若使用主成分分析(PCA)将维度降至10,需要计算的协方差矩阵的维度是()。
A.10×10
B.50×50
C.1000×1000
D.50×10
16.以下哪种机器学习算法属于无监督学习?()
A.逻辑回归
B.随机森林
C.K近邻(KNN)
D.关联规则挖掘(Apriori)
17.在SparkSQL中,DataFrame的“select”方法与“filter”方法的主要区别是()
原创力文档


文档评论(0)