2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1207).docxVIP

2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1207).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项属于数据清洗的核心任务?

A.特征提取(如主成分分析)

B.处理缺失值(如均值插补)

C.模型超参数调优(如网格搜索)

D.可视化探索(如绘制箱线图)

答案:B

解析:数据清洗的核心任务是解决数据中的质量问题,包括处理缺失值、纠正错误值、处理异常值等。选项A属于特征工程中的特征提取;选项C属于模型优化阶段;选项D属于探索性数据分析(EDA),因此正确答案为B。

在特征工程中,对类别型特征“用户职业”(如教师、医生、学生)进行编码时,最适合的方法是?

A.标准化(Z-score)

B.独热编码(One-HotEncoding)

C.对数变换(LogTransformation)

D.分箱(Binning)

答案:B

解析:类别型特征无顺序关系时,独热编码通过生成二进制向量区分不同类别,是最常用的编码方法。标准化用于数值型特征(A错误);对数变换用于处理偏态分布的数值型数据(C错误);分箱用于将连续数值离散化(D错误),因此正确答案为B。

以下哪种机器学习算法属于监督学习?

A.K-means聚类

B.主成分分析(PCA)

C.支持向量机(SVM)

D.关联规则挖掘(Apriori)

答案:C

解析:监督学习需要标签数据进行训练,SVM用于分类或回归,属于监督学习。K-means(无标签聚类)、PCA(无标签降维)、Apriori(无标签关联分析)均为无监督学习,因此正确答案为C。

中心极限定理(CLT)的核心结论是?

A.样本均值的分布趋近于均匀分布

B.总体方差的估计值等于样本方差

C.当样本量足够大时,样本均值的分布趋近于正态分布

D.相关系数的绝对值越大,因果关系越强

答案:C

解析:中心极限定理指出,无论总体分布如何,当样本量足够大(通常n≥30)时,样本均值的抽样分布趋近于正态分布。选项A错误(应为正态分布);B是方差估计的基本性质,与CLT无关;D混淆了相关与因果,因此正确答案为C。

数据可视化中,用于展示两个连续变量相关性的最佳图表是?

A.柱状图(BarChart)

B.散点图(ScatterPlot)

C.箱线图(BoxPlot)

D.饼图(PieChart)

答案:B

解析:散点图通过点的分布直观展示两个连续变量的相关关系(如正相关、负相关、无相关)。柱状图用于分类变量对比(A错误);箱线图展示数据分布的统计量(C错误);饼图用于展示比例构成(D错误),因此正确答案为B。

以下哪项是SQL中用于筛选行的子句?

A.GROUPBY

B.ORDERBY

C.WHERE

D.SELECT

答案:C

解析:WHERE子句用于过滤满足条件的行(如WHEREage18)。GROUPBY用于分组统计(A错误);ORDERBY用于排序(B错误);SELECT用于选择列(D错误),因此正确答案为C。

模型评估中,F1分数综合考虑了以下哪两个指标?

A.准确率(Accuracy)和召回率(Recall)

B.精确率(Precision)和召回率(Recall)

C.精确率(Precision)和准确率(Accuracy)

D.特异度(Specificity)和召回率(Recall)

答案:B

解析:F1分数是精确率(查准率)和召回率(查全率)的调和平均数,公式为F1=2(PR)/(P+R)。准确率是总体正确比例(A、C错误);特异度是真负率(D错误),因此正确答案为B。

以下属于Hadoop生态系统中分布式存储组件的是?

A.MapReduce

B.HBase

C.HDFS

D.Spark

答案:C

解析:HDFS(Hadoop分布式文件系统)是Hadoop的核心存储组件。MapReduce是计算框架(A错误);HBase是基于HDFS的NoSQL数据库(B错误);Spark是内存计算框架(D错误),因此正确答案为C。

为解决模型过拟合问题,以下哪项措施无效?

A.增加训练数据量

B.降低模型复杂度(如减少决策树深度)

C.添加L2正则化(权重衰减)

D.减少特征数量(删除无关特征)

答案:D

解析:过拟合是模型对训练数据过度学习,泛化能力差。减少特征数量可能导致欠拟合(模型无法捕捉关键模式),而增加数据、降低复杂度、正则化均可缓解过拟合。因此正确答案为D(注意:若特征冗余,删除无关特征可能有效,但题目强调“无效”,故D为正确选项)。

数据伦理中,“数据最小化原则”要求?

A.收集尽可能多的数据以保证分析全面性

B.仅收集完成目标所需的必要数据

C.对所有数据进行匿名化处理

D.数据使用后立即删除

答案:B

解析:数据最小化原则要求数据

您可能关注的文档

文档评论(0)

gyf70 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档