- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
数据清洗中处理缺失值的最佳实践是()
A.直接删除所有含缺失值的记录
B.对所有缺失值统一用均值填充
C.根据业务场景选择填充方法(如中位数、众数或模型预测)
D.忽略缺失值,直接输入模型训练
答案:C
解析:缺失值处理需结合具体业务场景:直接删除(A)可能导致数据丢失;均值填充(B)不适用分类变量或存在异常值的情况;忽略缺失值(D)会导致模型报错或偏差。根据变量类型(连续/分类)、缺失比例及业务含义选择填充方法(如中位数对异常值更稳健、模型预测利用特征关联)是最佳实践(C正确)。
以下哪项是特征工程中处理高基数分类变量的常用方法?()
A.直接使用原始类别标签
B.独热编码(One-HotEncoding)
C.目标编码(TargetEncoding)
D.标准化(Z-Score)
答案:C
解析:高基数分类变量(如“城市”有1000个类别)使用独热编码(B)会导致维度爆炸(产生1000列);直接使用标签(A)无数值意义;标准化(D)适用于连续变量。目标编码(C)通过类别与目标变量的统计关系(如均值)映射为数值,可有效降低维度,是高基数场景的常用方法。
机器学习模型过拟合的典型表现是()
A.训练集和测试集准确率都很低
B.训练集准确率高,测试集准确率低
C.训练集准确率低,测试集准确率高
D.训练集和测试集准确率接近
答案:B
解析:过拟合指模型过度学习训练数据的噪声和细节,导致泛化能力差。表现为训练集效果好(拟合了噪声),但测试集效果差(无法推广新数据),故B正确。A是欠拟合;D是模型泛化能力好;C不符合实际规律。
中心极限定理(CLT)的核心结论是()
A.样本量越大,样本均值越接近总体均值
B.无论总体分布如何,大样本的均值近似正态分布
C.总体必须服从正态分布,样本均值才服从正态分布
D.样本方差等于总体方差除以样本量
答案:B
解析:中心极限定理指出,即使总体分布非正态,当样本量足够大(通常n≥30),样本均值的抽样分布近似正态分布(B正确)。A是大数定律的结论;C错误,CLT不要求总体正态;D是方差性质,非CLT核心。
以下哪种数据可视化图表最适合展示不同类别间的数值对比?()
A.折线图
B.散点图
C.柱状图
D.热力图
答案:C
解析:柱状图(C)通过柱高直观比较不同类别的数值大小,适合分类变量与数值变量的对比。折线图(A)用于时间序列趋势;散点图(B)展示两个连续变量的相关性;热力图(D)用于矩阵数据的密度或关联强度。
关系型数据库中,第三范式(3NF)要求()
A.消除非主属性对候选键的部分依赖
B.消除非主属性对候选键的传递依赖
C.消除主属性之间的依赖
D.所有属性都完全依赖于主键
答案:B
解析:第一范式(1NF)要求原子性;第二范式(2NF)消除部分依赖(A);第三范式(3NF)消除传递依赖(如A→B→C,则C传递依赖A,需拆分表)(B正确);D是2NF的要求。
以下属于大数据分布式计算框架的是()
A.MySQL
B.HadoopMapReduce
C.Excel
D.Redis
答案:B
解析:HadoopMapReduce(B)是典型的分布式计算框架,用于海量数据的并行处理。MySQL(A)是关系型数据库;Excel(C)是单机表格工具;Redis(D)是内存数据库,均非分布式计算框架。
数据科学项目中,以下哪项属于伦理风险?()
A.数据维度不足
B.模型预测速度慢
C.用户隐私泄露
D.特征工程耗时
答案:C
解析:伦理风险主要涉及隐私保护、算法公平性等。用户隐私泄露(C)直接违反伦理原则;A、B、D属于技术或工程问题,非伦理风险。
贝叶斯定理的数学表达式是()
A.P(A|B)=P(B|A)P(A)/P(B)
B.P(A∪B)=P(A)+P(B)-P(A∩B)
C.P(A∩B)=P(A)P(B|A)
D.P(A)=1-P(?A)
答案:A
解析:贝叶斯定理描述后验概率计算,公式为P(A|B)=P(B|A)P(A)/P(B)(A正确)。B是加法公式;C是乘法公式;D是互补事件概率。
时间序列分析中,平稳性的核心要求是()
A.均值和方差不随时间变化
B.数据必须服从正态分布
C.存在明显的趋势或季节性
D.自相关系数随滞后阶数增加而单调下降
答案:A
解析:平稳时间序列的均值、方差和自协方差不随时间平移变化(A正确)。正态分布(B)非必要;趋势/季节性(C)是非平稳的表现;自相关系数(D)是平稳性的推论而非核心要求。
二、多项选择题(共10题,每题2分,共20分)
数据质量的核
您可能关注的文档
最近下载
- (高清版)B-T 18380.12-2022 电缆和光缆在火焰条件下的燃烧试验 第12部分:单根绝缘电线电缆火焰垂直蔓延试验 1kW预混合型火焰试验方法.pdf VIP
- 中联重科QUY80履带起重机技术介绍册.docx VIP
- 2024年销售部年终工作总结汇报2025年营销计划PPT.pptx VIP
- 优秀基层党支部汇报.ppt VIP
- 货币金融学米什金.pptx VIP
- 2025年水利工程验收规范.pdf VIP
- 装修工程部团队成长方案(3篇).docx
- 习概简答复习题.docx VIP
- 2025CSP-J入门组第一轮-初赛试题及答案解析-1 .pdf VIP
- 论文开题报告课件通用模板.pptx VIP
原创力文档


文档评论(0)