- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪种方法最适用于处理服从正态分布数据中的异常值?
A.分位数截断法(IQR)
B.Z-score方法
C.聚类检测法(如DBSCAN)
D.专家经验判断法
答案:B
解析:Z-score方法基于正态分布的3σ原则(约99.7%数据落在μ±3σ内),适用于明确服从正态分布的数据;IQR法适用于偏态分布(基于四分位数范围);聚类检测法适用于无明确分布假设的高维数据;专家经验法依赖主观判断,非统计最优。
当数据存在严重极端值时,描述集中趋势的最佳统计量是?
A.均值
B.中位数
C.众数
D.调和平均数
答案:B
解析:均值对极端值敏感(会被拉高或拉低);中位数是数据排序后的中间值,不受极端值影响;众数适用于分类数据或离散数据;调和平均数主要用于速率数据的平均,均不适合本题场景。
以下属于监督学习算法的是?
A.K-means聚类
B.线性回归
C.主成分分析(PCA)
D.Q-learning强化学习
答案:B
解析:监督学习需要标签数据(输入-输出对),线性回归通过拟合输入特征与连续标签的关系进行预测;K-means(无监督)、PCA(无监督降维)、Q-learning(强化学习,通过奖励信号学习策略)均不符合。
用于可视化两个连续变量之间相关关系的最佳图表是?
A.箱线图
B.热力图
C.散点图
D.折线图
答案:C
解析:散点图通过点的分布直接展示两个变量的关联趋势(如正相关、负相关);箱线图展示单变量分布;热力图用于展示矩阵数据(如相关系数矩阵);折线图适用于时间序列或有序变量的趋势。
对类别型特征“职业”(取值为教师、医生、工程师)进行编码时,最合理的方法是?
A.标准化(Z-score)
B.分箱(Binning)
C.独热编码(One-HotEncoding)
D.主成分分析(PCA)
答案:C
解析:类别型特征无顺序关系,独热编码通过二进制向量表示不同类别(如3个类别生成3维0-1向量),避免模型错误识别顺序;标准化用于数值型特征;分箱是离散化数值型特征;PCA是降维方法,均不适用。
对于类别高度不平衡的分类任务(如1%正样本),最适合的评估指标是?
A.准确率(Accuracy)
B.F1-score
C.均方误差(MSE)
D.R平方(R2)
答案:B
解析:准确率在类别不平衡时会因多数类主导而虚高(如全预测负样本准确率99%);F1-score综合精确率(Precision)和召回率(Recall),更关注少数类表现;MSE和R2是回归任务指标。
以下属于Hadoop生态系统中分布式存储组件的是?
A.MapReduce
B.HDFS
C.Spark
D.Flink
答案:B
解析:HDFS(Hadoop分布式文件系统)是Hadoop的核心存储组件;MapReduce是计算框架;Spark和Flink是独立的计算引擎(支持内存计算和流处理)。
条件概率P(A|B)的正确计算公式是?
A.P(A)×P(B)
B.P(A)+P(B)
C.P(AB)/P(B)
D.P(B|A)×P(A)
答案:C
解析:条件概率定义为事件B发生时事件A发生的概率,公式为P(A|B)=P(AB)/P(B)(其中P(AB)是A和B同时发生的联合概率);D是贝叶斯定理的变形(P(B|A)×P(A)=P(AB))。
数据仓库(DataWarehouse)的核心应用场景是?
A.实时事务处理(OLTP)
B.在线分析处理(OLAP)
C.原始数据存储(数据湖)
D.日志实时写入
答案:B
解析:数据仓库通过ETL(抽取-转换-加载)整合多源数据,优化复杂查询和分析(如多维聚合、趋势预测),属于OLAP;OLTP是关系型数据库的事务处理(如用户下单);数据湖存储原始未处理数据;日志实时写入属于流数据处理。
以下Python库中,专门用于数据清洗和预处理的是?
A.NumPy
B.Pandas
C.Matplotlib
D.Scikit-learn
答案:B
解析:Pandas提供DataFrame数据结构,支持缺失值处理、数据合并、分组聚合等预处理操作;NumPy是数值计算基础库;Matplotlib是可视化库;Scikit-learn是机器学习算法库。
二、多项选择题(共10题,每题2分,共20分)
数据预处理的核心步骤包括?(至少2个正确选项)
A.缺失值处理
B.异常值检测
C.数据标准化
D.类别特征编码
答案:ABCD
解析:数据预处理是为模型输入准备高质量数据的过程,包括缺失值填充/删除(A)、异常值修正/剔除(B)、数值特征标准化/归一化(C)、类别
您可能关注的文档
- 2025年EAP咨询师考试题库(附答案和详细解析)(1215).docx
- 2025年专利代理师资格考试考试题库(附答案和详细解析)(1212).docx
- 2025年健康评估师考试题库(附答案和详细解析)(1211).docx
- 2025年国际会展管理师考试题库(附答案和详细解析)(1209).docx
- 2025年国际注册营养师考试题库(附答案和详细解析)(1216).docx
- 2025年心理咨询师考试题库(附答案和详细解析)(1213).docx
- 2025年无人机驾驶员考试题库(附答案和详细解析)(1211).docx
- 2025年法律职业资格考试(法考)考试题库(附答案和详细解析)(1214).docx
- 2025年注册信息安全经理(CISM)考试题库(附答案和详细解析)(1218).docx
- 2025年注册噪声控制工程师考试题库(附答案和详细解析)(1218).docx
- 2025年注册培训师(CCT)考试题库(附答案和详细解析)(1130).docx
- 2025年注册用户体验设计师(UXD)考试题库(附答案和详细解析)(1212).docx
- 2025年移动安全工程师考试题库(附答案和详细解析)(1218).docx
- A股的新股破发率与市场情绪.docx
- Crypto市场的比特币halvings效应.docx
- 《家庭教育促进法》学校责任条款解读.docx
最近下载
- 2025年河南普通高中学业水平选择性考试物理试题及答案.docx VIP
- 2025-2026学年部编版语文六年级上册期末测试题附答案(共7套) .pdf VIP
- 哈弗H5汽车使用手册说明书pdf电子版下载.pdf VIP
- 免费颁奖典礼晚会PPT模板 (6).pptx VIP
- 等差数列与等比数列综合题.pdf VIP
- 提高供应商交付准时率的方案.pptx VIP
- 暖通空调专业-K101-1~3 通风机安装(2002年合订本).pdf VIP
- 土钉墙基坑支护施工组织设计(附计算书 ).doc VIP
- 阿特拉斯•科普柯 冷冻式干燥机.pdf VIP
- 2025年黑龙江省普通高中学业水平合格性考试英语试题(含答案,无听力原文及音频).pdf VIP
原创力文档


文档评论(0)