2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1207）.docxVIP

下载本文档

0
0
约7.88千字
约 11页
2025-12-18 发布于上海
举报
版权申诉

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1207）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据科学专业认证（CDSP）考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项属于数据清洗的核心任务？

A.特征提取（如主成分分析）

B.处理缺失值（如均值插补）

C.模型超参数调优（如网格搜索）

D.可视化探索（如绘制箱线图）

答案：B

解析：数据清洗的核心任务是解决数据中的质量问题，包括处理缺失值、纠正错误值、处理异常值等。选项A属于特征工程中的特征提取；选项C属于模型优化阶段；选项D属于探索性数据分析（EDA），因此正确答案为B。

在特征工程中，对类别型特征“用户职业”（如教师、医生、学生）进行编码时，最适合的方法是？

A.标准化（Z-score）

B.独热编码（One-HotEncoding）

C.对数变换（LogTransformation）

D.分箱（Binning）

答案：B

解析：类别型特征无顺序关系时，独热编码通过生成二进制向量区分不同类别，是最常用的编码方法。标准化用于数值型特征（A错误）；对数变换用于处理偏态分布的数值型数据（C错误）；分箱用于将连续数值离散化（D错误），因此正确答案为B。

以下哪种机器学习算法属于监督学习？

A.K-means聚类

B.主成分分析（PCA）

C.支持向量机（SVM）

D.关联规则挖掘（Apriori）

答案：C

解析：监督学习需要标签数据进行训练，SVM用于分类或回归，属于监督学习。K-means（无标签聚类）、PCA（无标签降维）、Apriori（无标签关联分析）均为无监督学习，因此正确答案为C。

中心极限定理（CLT）的核心结论是？

A.样本均值的分布趋近于均匀分布

B.总体方差的估计值等于样本方差

C.当样本量足够大时，样本均值的分布趋近于正态分布

D.相关系数的绝对值越大，因果关系越强

答案：C

解析：中心极限定理指出，无论总体分布如何，当样本量足够大（通常n≥30）时，样本均值的抽样分布趋近于正态分布。选项A错误（应为正态分布）；B是方差估计的基本性质，与CLT无关；D混淆了相关与因果，因此正确答案为C。

数据可视化中，用于展示两个连续变量相关性的最佳图表是？

A.柱状图（BarChart）

B.散点图（ScatterPlot）

C.箱线图（BoxPlot）

D.饼图（PieChart）

答案：B

解析：散点图通过点的分布直观展示两个连续变量的相关关系（如正相关、负相关、无相关）。柱状图用于分类变量对比（A错误）；箱线图展示数据分布的统计量（C错误）；饼图用于展示比例构成（D错误），因此正确答案为B。

以下哪项是SQL中用于筛选行的子句？

A.GROUPBY

B.ORDERBY

C.WHERE

D.SELECT

答案：C

解析：WHERE子句用于过滤满足条件的行（如WHEREage18）。GROUPBY用于分组统计（A错误）；ORDERBY用于排序（B错误）；SELECT用于选择列（D错误），因此正确答案为C。

模型评估中，F1分数综合考虑了以下哪两个指标？

A.准确率（Accuracy）和召回率（Recall）

B.精确率（Precision）和召回率（Recall）

C.精确率（Precision）和准确率（Accuracy）

D.特异度（Specificity）和召回率（Recall）

答案：B

解析：F1分数是精确率（查准率）和召回率（查全率）的调和平均数，公式为F1=2(PR)/(P+R)。准确率是总体正确比例（A、C错误）；特异度是真负率（D错误），因此正确答案为B。

以下属于Hadoop生态系统中分布式存储组件的是？

A.MapReduce

B.HBase

C.HDFS

D.Spark

答案：C

解析：HDFS（Hadoop分布式文件系统）是Hadoop的核心存储组件。MapReduce是计算框架（A错误）；HBase是基于HDFS的NoSQL数据库（B错误）；Spark是内存计算框架（D错误），因此正确答案为C。

为解决模型过拟合问题，以下哪项措施无效？

A.增加训练数据量

B.降低模型复杂度（如减少决策树深度）

C.添加L2正则化（权重衰减）

D.减少特征数量（删除无关特征）

答案：D

解析：过拟合是模型对训练数据过度学习，泛化能力差。减少特征数量可能导致欠拟合（模型无法捕捉关键模式），而增加数据、降低复杂度、正则化均可缓解过拟合。因此正确答案为D（注意：若特征冗余，删除无关特征可能有效，但题目强调“无效”，故D为正确选项）。

数据伦理中，“数据最小化原则”要求？

A.收集尽可能多的数据以保证分析全面性

B.仅收集完成目标所需的必要数据

C.对所有数据进行匿名化处理

D.数据使用后立即删除

答案：B

解析：数据最小化原则要求数据

您可能关注的文档

文档评论（0）

gyf70 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1207）.docxVIP