2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1122).docxVIP

2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1122).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪种数据类型属于定比数据?

A.性别(男/女)

B.教育程度(小学/初中/本科)

C.温度(摄氏度)

D.年龄(岁)

答案:D

解析:定比数据具有绝对零点和可比较的比例关系。年龄(岁)有绝对零点(0岁表示没有年龄),且20岁是10岁的2倍,符合定比数据定义。A是定类数据(无顺序),B是定序数据(有顺序无间隔),C是定距数据(有间隔无绝对零点,如0℃不表示无温度)。

在右偏分布中,均值、中位数、众数的大小关系通常为?

A.均值中位数众数

B.中位数均值众数

C.众数中位数均值

D.众数均值中位数

答案:A

解析:右偏分布(正偏态)的长尾在右侧,均值受极端大值影响被拉向右侧,因此均值中位数众数。例如收入分布,少数高收入者会拉高均值,但中位数和众数更集中在较低区间。

以下哪种方法最常用于解决机器学习中的过拟合问题?

A.增加训练数据量

B.减少特征数量

C.降低模型复杂度(如减少决策树深度)

D.以上都是

答案:D

解析:过拟合是模型对训练数据过度学习、泛化能力差的表现。增加数据量(提供更多样本多样性)、减少特征(降低维度复杂度)、降低模型复杂度(如限制树深度)均能缓解过拟合。三者均为有效方法。

数据清洗中,若某特征缺失值比例小于5%且无明显模式,最合理的处理方式是?

A.用均值填充

B.删除缺失值所在的行

C.用中位数填充

D.用众数填充

答案:B

解析:当缺失值比例较低(5%)且无系统性缺失(如随机缺失)时,直接删除缺失行对整体数据影响最小,避免引入填充误差。填充方法(均值/中位数/众数)适用于缺失比例较高或有特定模式的场景。

数据库设计中,第三范式(3NF)要求?

A.消除非主属性对候选键的部分依赖

B.消除非主属性对候选键的传递依赖

C.消除主属性之间的依赖

D.所有属性不可再分

答案:B

解析:第一范式(1NF)要求属性原子性(不可再分);第二范式(2NF)消除非主属性对候选键的部分依赖;第三范式(3NF)消除非主属性对候选键的传递依赖(如A→B→C,需分离为A→B和B→C)。

以下哪项是Seaborn相对于Matplotlib的主要优势?

A.更底层的绘图控制

B.内置统计可视化模板(如箱线图、热力图)

C.支持3D图形绘制

D.更高效的大数据量渲染

答案:B

解析:Seaborn是基于Matplotlib的高层库,专注于统计可视化,提供了更简洁的API和预定义的统计图表模板(如lmplot、pairplot)。Matplotlib更侧重底层控制,3D绘图和大数据渲染能力两者无显著差异。

检验两个独立样本的均值是否有显著差异,应选择?

A.卡方检验

B.t检验(独立样本)

C.方差分析(ANOVA)

D.皮尔逊相关系数

答案:B

解析:t检验用于比较两个独立/配对样本的均值差异;卡方检验用于分类变量的独立性检验;ANOVA用于三个及以上样本的均值比较;皮尔逊相关系数衡量线性相关性。

对类别特征“颜色(红/蓝/绿)”进行编码时,最合理的方法是?

A.标签编码(红=1,蓝=2,绿=3)

B.独热编码(生成3个二进制特征)

C.序数编码(按颜色波长排序)

D.直接保留原始字符串

答案:B

解析:类别特征无顺序关系时(如颜色),标签编码会错误引入数值顺序(如红蓝绿),而独热编码(One-HotEncoding)通过二进制向量避免此问题,是最合理选择。序数编码适用于有明确顺序的类别(如低/中/高)。

时间序列分析中,用于检验平稳性的常用方法是?

A.自相关函数(ACF)

B.偏自相关函数(PACF)

C.迪克-富勒检验(ADF检验)

D.贾奎-贝拉检验(JB检验)

答案:C

解析:ADF检验通过单位根检验判断时间序列是否平稳(原假设为存在单位根,即非平稳);ACF和PACF用于识别AR/MA模型阶数;JB检验用于正态性检验。

以下哪项不属于数据伦理的核心原则?

A.隐私保护

B.算法透明性

C.模型准确率最大化

D.结果公平性

答案:C

解析:数据伦理关注数据收集、处理、应用中的道德问题,核心原则包括隐私保护(如GDPR)、算法透明性(避免黑箱)、结果公平性(防止歧视)。模型准确率是技术目标,非伦理原则。

二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)

数据清洗的主要内容包括?

A.处理缺失值

B.纠正异常值

C.转换数据格式(如日期字符串转datetime)

D.删除重复记录

答案:ABCD

解析:数据清洗是消除数据缺陷的过程,包括处理缺失值(填充/删除)、纠正异常值(修正/删除)、转换格

您可能关注的文档

文档评论(0)

nastasia + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档