- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是处理数据集中少量缺失值(缺失率5%)的合理方法?
A.对数值型特征用众数填充
B.直接删除包含缺失值的行
C.对时间序列特征用随机数填充
D.保留缺失值直接输入模型训练
答案:B
解析:处理少量缺失值时,直接删除包含缺失值的行(列表删除法)是常用方法(B正确)。数值型特征应使用均值/中位数填充,众数适用于分类型(A错误);时间序列通常用插值法(如前向填充),随机数会破坏时序性(C错误);多数模型无法直接处理缺失值,需填充或删除(D错误)。
在逻辑回归中,以下哪个指标用于衡量模型对分类边界的置信度?
A.准确率(Accuracy)
B.对数损失(LogLoss)
C.F1分数
D.ROC曲线下面积(AUC)
答案:B
解析:对数损失(LogLoss)衡量预测概率与真实标签的差异,值越小表示模型对分类结果越有信心(B正确)。准确率是分类正确比例,不反映置信度(A错误);F1是精确率与召回率的调和平均(C错误);AUC衡量模型区分正负类的能力(D错误)。
以下哪种数据可视化方法最适合展示多个变量间的相关性?
A.箱线图(BoxPlot)
B.散点矩阵(ScatterMatrix)
C.折线图(LineChart)
D.柱状图(BarChart)
答案:B
解析:散点矩阵可同时展示多变量两两之间的散点图,直观反映变量间的线性或非线性关系(B正确)。箱线图用于展示单变量分布(A错误);折线图适合时序数据(C错误);柱状图用于比较分类变量的数值(D错误)。
假设检验中,若原假设为“μ=μ?”,当实际μ≠μ?但未拒绝原假设时,发生了:
A.第一类错误(α错误)
B.第二类错误(β错误)
C.正确决策
D.统计功效不足
答案:B
解析:第二类错误(β错误)指原假设为假时未拒绝原假设(B正确)。第一类错误是原假设为真时拒绝原假设(A错误);正确决策需原假设与结论一致(C错误);统计功效(1-β)反映拒绝错误原假设的能力(D错误)。
以下哪项属于非监督学习任务?
A.预测客户是否会流失(二分类)
B.识别图像中的手写数字(多分类)
C.将用户分为不同兴趣群体(聚类)
D.预测房价(回归)
答案:C
解析:聚类(如K-means)是典型的非监督学习,无需标签(C正确)。分类(A、B)和回归(D)均为监督学习,需标签数据训练。
在特征工程中,对“月份”特征(1-12月)进行编码时,最合理的方法是:
A.独热编码(One-HotEncoding)
B.标签编码(LabelEncoding)
C.循环编码(CyclicEncoding)
D.目标编码(TargetEncoding)
答案:C
解析:月份具有周期性(12月与1月相邻),循环编码(如用sin/cos转换)能保留周期性关系(C正确)。独热编码会增加12维特征,可能丢失周期性(A错误);标签编码将月份视为有序数值(12…12),不符合实际(B错误);目标编码依赖标签,可能过拟合(D错误)。
以下哪个数据库适合存储实时数据流(如传感器数据)?
A.关系型数据库(MySQL)
B.文档型数据库(MongoDB)
C.列存储数据库(HBase)
D.时序数据库(InfluxDB)
答案:D
解析:时序数据库(如InfluxDB)优化了时间序列数据的写入和查询性能,适合实时数据流(D正确)。关系型数据库适合结构化事务数据(A错误);文档型适合半结构化数据(B错误);列存储适合批量分析(C错误)。
在随机森林(RandomForest)中,以下哪项不是其关键特性?
A.基于决策树的集成学习
B.对每个节点分裂时随机选择特征子集
C.可输出特征重要性
D.必须使用Boosting方法组合基模型
答案:D
解析:随机森林使用Bagging(自助采样)组合基决策树,而非Boosting(D错误)。其他选项均为随机森林的核心特性(A、B、C正确)。
以下哪种评估指标不适用于不平衡数据集的分类任务?
A.精确率(Precision)
B.召回率(Recall)
C.准确率(Accuracy)
D.F1分数
答案:C
解析:准确率在不平衡数据中会因多数类占比高而虚高(如99%负样本时,全预测负类准确率99%,但无实际价值)(C错误)。精确率、召回率、F1关注正类表现,更适合不平衡数据(A、B、D正确)。
数据科学项目中,“数据探索(EDA)”的核心目标是:
A.直接构建预测模型
B.发现数据中的模式、异常和关系
C.完成数据清洗
D.生成最终报告
答案:B
解析:数据探索(EDA)通过统计和可视化分析数据分布、特征关系及异
您可能关注的文档
- 2025年企业人力资源管理师考试题库(附答案和详细解析)(1028).docx
- 2025年企业文化师考试题库(附答案和详细解析)(1013).docx
- 2025年企业文化师考试题库(附答案和详细解析)(1017).docx
- 2025年供应链管理专业人士考试题库(附答案和详细解析)(1014).docx
- 2025年供应链管理专业人士考试题库(附答案和详细解析)(1029).docx
- 2025年健康评估师考试题库(附答案和详细解析)(1024).docx
- 2025年区块链架构师考试题库(附答案和详细解析)(1021).docx
- 2025年司法鉴定人考试题库(附答案和详细解析)(1029).docx
- 2025年国际注册营养师考试题库(附答案和详细解析)(1026).docx
- 2025年土地估价师考试题库(附答案和详细解析)(1020).docx
- 2025年数据隐私合规师(DPO)考试题库(附答案和详细解析)(1016).docx
- 2025年普通话水平测试考试题库(附答案和详细解析)(1028).docx
- 2025年机器学习工程师考试题库(附答案和详细解析)(1029).docx
- 2025年法律职业资格考试(法考)考试题库(附答案和详细解析)(1027).docx
- 2025年注册会计师(CPA)考试题库(附答案和详细解析)(1016).docx
- 2025年注册动画设计师考试题库(附答案和详细解析)(1029).docx
- 2025年注册园林工程师考试题库(附答案和详细解析)(1028).docx
- 2025年注册室内设计师考试题库(附答案和详细解析)(1017).docx
- 2025年注册工业设计师考试题库(附答案和详细解析)(1014).docx
- 2025年注册工业设计师考试题库(附答案和详细解析)(1024).docx
最近下载
- 江苏省梅村高级中学2022年物理高一年级上册期末经典试题含解析.pdf VIP
- GB∕T 50298-2018 风景名胜区总体规划标准.docx VIP
- 2024-2025学年江苏省无锡市滨湖区梅村高级中学空港分校高一(上)期中物理试卷(含答案).docx VIP
- 2024—2025学年江苏省梅村高级中学高一上学期期中检测化学试卷.doc VIP
- 2023-2024学年江苏省无锡市梅村高级中学高一(上)期中数学试卷【答案版】.docx VIP
- 上海三菱电梯LEHY-IIC维修资料LEHYⅡC慢车⒈对线路进行.DOC VIP
- 2024-2025江苏无锡梅村高级中学高一(上)期中数学试卷【答案版】.pdf VIP
- 上消化道出血应急预案流程图[实用].docx VIP
- 2021年7月10日四川广元昭化区部分事业单位考试《综合知识》精选题.pdf VIP
- 三菱电梯LEHY(C) LEHY-III LEHY-MRL电梯安装调试培训资料(2).pptx VIP
原创力文档


文档评论(0)