- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
中心极限定理的核心结论是:
A.总体必须服从正态分布
B.样本方差随样本量增大而减小
C.当样本量足够大时,样本均值的分布趋近正态分布
D.所有统计量的分布都趋近正态分布
答案:C
解析:中心极限定理指出,无论总体分布如何,当样本量足够大时(通常n≥30),样本均值的抽样分布近似服从正态分布。选项A错误,总体分布无需预先正态;选项B是大数定律的结论;选项D表述绝对,仅针对样本均值等特定统计量。
以下属于监督学习任务的是:
A.聚类分析(Clustering)
B.主成分分析(PCA)
C.线性回归(LinearRegression)
D.关联规则挖掘(AssociationRules)
答案:C
解析:监督学习需要标签数据,目标是学习输入到输出的映射。线性回归用于预测连续值,属于监督学习。其他选项中,聚类、PCA、关联规则均为无监督学习(无标签数据)。
数据清洗中处理异常值的正确流程是:
A.直接删除所有异常值
B.先分析异常值产生的原因(如测量误差或真实极端值)
C.用均值填充所有异常值
D.忽略异常值,不影响模型效果
答案:B
解析:异常值可能是数据错误(如测量误差)或真实极端情况(如高收入群体),需先判断成因再处理。直接删除或填充可能丢失关键信息(选项A、C错误);忽略异常值可能导致模型偏差(选项D错误)。
混淆矩阵中“真正例(TruePositive)”指:
A.实际正类预测为反类
B.实际反类预测为正类
C.实际正类预测为正类
D.实际反类预测为反类
答案:C
解析:混淆矩阵四元素定义为:TP(真正例)=实际正类预测正类;TN(真反例)=实际反类预测反类;FP(假正例)=实际反类预测正类;FN(假反例)=实际正类预测反类。选项C正确。
皮尔逊相关系数(PearsonCorrelation)的取值范围是:
A.[-∞,+∞]
B.[0,1]
C.[-1,1]
D.[1,+∞]
答案:C
解析:皮尔逊相关系数衡量两个变量的线性相关程度,取值范围为[-1,1]。-1表示完全负线性相关,1表示完全正线性相关,0表示无线性相关。选项C正确。
特征工程的主要目的是:
A.增加数据量
B.提高模型泛化能力
C.减少计算时间
D.替代模型训练
答案:B
解析:特征工程通过数据转换、选择、构造等方法,提取更具代表性的特征,帮助模型更好地捕捉数据规律,核心目的是提升模型泛化能力。选项B正确。
K折交叉验证(K-FoldCV)的主要作用是:
A.加速模型训练
B.减少过拟合风险
C.评估模型泛化性能
D.自动选择最优超参数
答案:C
解析:交叉验证通过将数据分成K个子集,轮流作为验证集和训练集,计算平均验证误差,用于更可靠地评估模型在未见过数据上的表现(泛化能力)。选项C正确。
以下属于大数据分布式存储技术的是:
A.HadoopMapReduce
B.SparkRDD
C.HadoopHDFS
D.Flink流处理
答案:C
解析:HDFS(Hadoop分布式文件系统)是Hadoop的核心存储组件,用于大规模数据的分布式存储。MapReduce(计算)、SparkRDD(内存计算抽象)、Flink(流处理)均为计算框架。选项C正确。
分类模型评估中,召回率(Recall)的计算公式是:
A.TP/(TP+FP)
B.TP/(TP+FN)
C.TN/(TN+FP)
D.(TP+TN)/(TP+TN+FP+FN)
答案:B
解析:召回率关注正类样本的覆盖能力,公式为真正例/(真正例+假反例)(TP/(TP+FN))。选项A是精确率(Precision),选项D是准确率(Accuracy)。
数据科学项目中,用户隐私保护的核心措施是:
A.收集尽可能多的用户数据
B.对敏感信息进行匿名化处理(如脱敏、哈希)
C.不存储用户任何个人信息
D.仅在内部使用数据,无需告知用户
答案:B
解析:隐私保护需在数据收集、存储、使用全流程中对敏感信息(如身份证号、手机号)进行匿名化处理(如脱敏、哈希),平衡数据价值与用户权益。选项A可能侵犯隐私,选项C不现实,选项D违反数据使用透明原则。
二、多项选择题(共10题,每题2分,共20分)
数据清洗的常见方法包括():
A.处理缺失值(如删除、插值)
B.纠正异常值(如截断、转换)
C.特征选择(如方差阈值法)
D.转换数据格式(如日期标准化)
答案:ABD
解析:数据清洗关注原始数据的质量问题,包括缺失值、异常值、格式不一致等。特征选择(选项C)属于特征工程,用于筛选有价值的特征,不属于清洗环节。
以下属于集成
您可能关注的文档
- 2025年SOC安全运营工程师考试题库(附答案和详细解析)(1218).docx
- 2025年健康照护师考试题库(附答案和详细解析)(1212).docx
- 2025年公益项目管理师考试题库(附答案和详细解析)(1210).docx
- 2025年国际注册信托与财富管理师(CTEP)考试题库(附答案和详细解析)(1218).docx
- 2025年城市更新咨询师考试题库(附答案和详细解析)(1214).docx
- 2025年宠物训导员考试题库(附答案和详细解析)(1212).docx
- 2025年工业互联网工程师考试题库(附答案和详细解析)(1207).docx
- 2025年工业大数据分析师考试题库(附答案和详细解析)(1126).docx
- 2025年影视后期制作师考试题库(附答案和详细解析)(1219).docx
- 2025年数字化转型师考试题库(附答案和详细解析)(1215).docx
- 2026年大连外国语大学翻译硕士(MTI)考研招生人数、参考书、考研经验、真题回忆.pdf
- 2026年电子科技大学翻译硕士(MTI)考研招生人数、参考书、考研经验、真题回忆.pdf
- 2026年东北大学翻译硕士(MTI)考研招生人数、参考书、考研经验、真题回忆.pdf
- 2026年东北师范大学翻译硕士(MTI)考研招生人数、参考书、考研经验、真题回忆.pdf
- 2026年东华大学翻译硕士(MTI)考研招生人数、参考书、考研经验、真题回忆.pdf
- 2026年福州大学翻译硕士(MTI)考研招生人数、参考书、考研经验、真题回忆.pdf
- 2026年贵州大学翻译硕士(MTI)考研招生人数、参考书、考研经验、真题回忆.pdf
- 2026年国际关系学院翻译硕士(MTI)考研招生人数、参考书、考研经验、真题回忆.pdf
- 2026年哈尔滨工业大学翻译硕士(MTI)考研招生人数、参考书、考研经验、真题回忆.pdf
- 2026年哈尔滨理工大学翻译硕士(MTI)考研招生人数、参考书、考研经验、真题回忆.pdf
原创力文档


文档评论(0)