- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
数据科学项目的核心流程通常遵循以下哪个框架?
A.数据收集→模型训练→结果输出
B.CRISP-DM(跨行业数据挖掘标准流程)
C.可视化→清洗→建模
D.特征工程→算法选择→参数调优
答案:B
解析:CRISP-DM(跨行业数据挖掘标准流程)是数据科学项目的经典方法论,包含业务理解、数据理解、数据准备、建模、评估、部署6个阶段,覆盖完整项目周期。A选项流程不完整,忽略业务目标;C选项顺序错误(应先数据理解再可视化);D选项仅涉及建模阶段,无法覆盖全流程。
以下哪种方法属于特征工程中的“特征提取”?
A.对类别型变量进行独热编码(One-HotEncoding)
B.计算两个数值型特征的乘积作为新特征
C.使用主成分分析(PCA)降维
D.去除方差低于阈值的特征
答案:C
解析:特征提取是通过现有特征生成更抽象的新特征(如降维),PCA通过线性变换将高维数据投影到低维空间,属于特征提取。A是特征编码(处理类别变量);B是特征构造(生成新组合特征);D是特征选择(过滤冗余特征)。
在机器学习中,“过拟合”的典型表现是?
A.训练集和测试集误差均很高
B.训练集误差低,测试集误差高
C.训练集误差高,测试集误差低
D.训练集和测试集误差均很低
答案:B
解析:过拟合指模型过度学习训练数据的噪声和细节,导致对新数据(测试集)泛化能力差,因此训练误差低但测试误差高。A是欠拟合表现;C和D不符合实际规律。
以下哪项是SQL中用于筛选行的子句?
A.GROUPBY
B.HAVING
C.WHERE
D.ORDERBY
答案:C
解析:WHERE子句用于在数据检索时过滤行(满足条件的行才会被选中)。A用于分组统计;B用于对分组后的结果过滤;D用于排序。
以下哪种可视化图表最适合展示两个连续变量的相关性?
A.柱状图
B.散点图
C.饼图
D.箱线图
答案:B
解析:散点图通过横轴和纵轴分别表示两个连续变量,点的分布可直观反映变量间的相关关系(如正相关、负相关、无相关)。柱状图适合比较分类变量的数值;饼图展示比例;箱线图显示数据分布的统计量。
计算两个分类变量的相关性时,最常用的统计量是?
A.皮尔逊相关系数(PearsonCorrelation)
B.斯皮尔曼秩相关系数(Spearman’sRho)
C.卡方统计量(Chi-Square)
D.均方误差(MSE)
答案:C
解析:卡方检验用于检验两个分类变量的独立性,通过卡方统计量判断变量间是否存在显著关联。A用于连续变量线性相关;B用于有序变量或非线性相关;D是回归模型的损失函数。
以下哪个算法属于无监督学习?
A.逻辑回归(LogisticRegression)
B.K-means聚类
C.随机森林(RandomForest)
D.支持向量机(SVM)
答案:B
解析:无监督学习从无标签数据中发现模式,K-means通过数据点间距离自动分组,属于无监督。A、C、D均需要标签数据训练模型,属于监督学习。
在数据清洗中,“处理异常值”的主要目的是?
A.减少数据量以提升计算效率
B.避免异常值对模型性能的负面影响
C.确保数据符合正态分布
D.增加数据的多样性
答案:B
解析:异常值可能是噪声(如测量错误)或真实极端值,若不处理可能导致模型过拟合或参数估计偏差(如线性回归的均值受异常值影响大)。A是数据抽样的目的;C错误(数据不一定需要正态分布);D与异常值处理无关。
以下哪种工具最适合处理大规模非结构化数据的分布式计算?
A.Excel
B.Pandas
C.ApacheSpark
D.SQLServer
答案:C
解析:ApacheSpark是分布式计算框架,支持处理TB级以上的非结构化/半结构化数据(如日志、文本),通过RDD和DataFrame实现并行计算。A、B适用于小规模数据;D是关系型数据库,适合结构化数据。
在混淆矩阵中,“召回率(Recall)”的计算公式是?
A.TP/(TP+FP)
B.TP/(TP+FN)
C.TN/(TN+FP)
D.TN/(TN+FN)
答案:B
解析:召回率(查全率)衡量模型正确识别正类样本的能力,公式为真正例(TP)除以实际正类总数(TP+FN)。A是精确率(Precision);C是真负率(Specificity);D无实际意义。
二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)
以下属于特征选择(FeatureSelection)方法的有?
A.卡方检验(Chi-SquareTest)
B.互信息(MutualInformat
您可能关注的文档
- 2025年精准医疗工程师考试题库(附答案和详细解析)(1103).docx
- 2025年康养管理师考试题库(附答案和详细解析)(1101).docx
- 2025年执业医师资格考试考试题库(附答案和详细解析)(1020).docx
- 2025年公关策划师考试题库(附答案和详细解析)(1102).docx
- 2025年企业合规师考试题库(附答案和详细解析)(1024).docx
- 2025年公关策划师考试题库(附答案和详细解析)(1010).docx
- 2025年注册消防工程师考试题库(附答案和详细解析)(1103).docx
- 2025年灾难应对心理师考试题库(附答案和详细解析)(1104).docx
- 2025年美国注册会计师(AICPA)考试题库(附答案和详细解析)(1104).docx
- 2025年跨境电商运营师考试题库(附答案和详细解析)(1103).docx
原创力文档


文档评论(0)