2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1107).docxVIP

2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1107).docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是中心极限定理(CLT)的核心结论?

A.样本均值的分布趋近于均匀分布

B.当样本量足够大时,样本均值的抽样分布近似正态分布

C.总体方差越大,样本均值的标准差越小

D.非正态总体的样本均值无法用正态分布近似

答案:B

解析:中心极限定理指出,无论总体分布如何,当样本量足够大(通常n≥30)时,样本均值的抽样分布近似服从正态分布(均值为总体均值,方差为总体方差/n)。选项A错误,因CLT指向正态而非均匀分布;选项C错误,样本均值的标准差(标准误)为σ/√n,与总体方差正相关;选项D错误,CLT允许非正态总体的样本均值用正态近似。

数据清洗中处理缺失值时,若某特征缺失率超过70%且无业务意义,最合理的处理方式是?

A.用均值填充

B.用中位数填充

C.直接删除该特征

D.用KNN算法预测填充

答案:C

解析:当特征缺失率过高(如70%)且无业务价值时,保留该特征会引入大量噪声,删除是最合理选择。选项A/B适用于低缺失率的数值型特征;选项D适用于缺失率中等且特征重要的场景。

支持向量机(SVM)中使用核函数的主要目的是?

A.降低计算复杂度

B.将低维线性不可分数据映射到高维线性可分空间

C.提高模型的可解释性

D.减少过拟合风险

答案:B

解析:核函数(如RBF核、多项式核)的核心作用是通过非线性变换将原始低维空间中的数据映射到高维特征空间,使得原本线性不可分的问题变为线性可分。选项A错误,核函数可能增加计算复杂度;选项C错误,核函数会降低可解释性;选项D是正则化的作用。

箱线图(BoxPlot)主要用于可视化数据的?

A.分布形态与异常值

B.时间趋势

C.变量间相关性

D.分类变量频率

答案:A

解析:箱线图通过四分位数(Q1,Q2,Q3)和whiskers展示数据的集中趋势、离散程度及可能的异常值(超出1.5IQR范围的点)。选项B是折线图的作用;选项C是散点图的作用;选项D是柱状图的作用。

关系型数据库(RDBMS)与非关系型数据库(NoSQL)的本质区别是?

A.存储容量大小

B.是否支持SQL查询

C.是否遵循ACID特性

D.数据模型是否为表结构

答案:D

解析:关系型数据库基于二维表结构(关系模型),强调数据间的关联;非关系型数据库(如键值、文档、列族、图数据库)采用灵活的数据模型(如JSON文档、键值对)。选项A错误,容量非本质区别;选项B错误,部分NoSQL支持类SQL查询;选项C错误,部分NoSQL也支持ACID(如MongoDB4.0+)。

对类别型特征“职业”(包含教师、医生、律师3个类别)进行独热编码(One-HotEncoding)后,会生成多少个新特征?

A.1

B.2

C.3

D.4

答案:C

解析:独热编码为每个类别生成一个二元特征(0/1),n个类别生成n个特征(无冗余时可删除1列,但本题未提降维)。因此3个类别生成3个新特征。

评估分类模型时,若关注“在预测为正类的样本中,实际为正类的比例”,应选择以下哪个指标?

A.准确率(Accuracy)

B.精确率(Precision)

C.召回率(Recall)

D.F1分数

答案:B

解析:精确率(Precision)=TP/(TP+FP),表示预测为正类中的真实正类比例。选项A是总体正确比例;选项C是真实正类中被正确预测的比例;选项D是Precision与Recall的调和平均。

Hadoop生态中,负责分布式资源管理的组件是?

A.HDFS

B.MapReduce

C.YARN

D.HBase

答案:C

解析:YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理系统,负责集群资源分配和任务调度。选项A是分布式文件系统;选项B是计算框架;选项D是列式存储数据库。

根据GDPR(通用数据保护条例),企业处理用户个人数据时必须满足的核心原则不包括?

A.数据最小化(仅收集必要数据)

B.明确同意(需用户主动授权)

C.无限期存储(数据可永久保留)

D.数据可携权(用户可获取数据副本)

答案:C

解析:GDPR要求数据存储需符合“目的限制”和“存储期限限制”,不可无限期保留。其他选项均为GDPR核心原则。

ARIMA(p,d,q)模型中,参数d表示?

A.自回归阶数

B.差分次数

C.移动平均阶数

D.季节周期长度

答案:B

解析:ARIMA模型中,d为使时间序列平稳所需的差分次数;p为自回归(AR)阶数;q为移动平均(MA)阶数。季节周期长度是SARIMA的参数。

二、多项选择题(共10题,每题2分,共20分)

您可能关注的文档

文档评论(0)

甜甜微笑 + 关注
实名认证
文档贡献者

计算机二级持证人

好好学习

领域认证该用户于2025年09月06日上传了计算机二级

1亿VIP精品文档

相关文档