- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据建模工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是衡量分类模型在正负样本分布不均衡时的关键指标?
A.准确率(Accuracy)
B.F1分数(F1-score)
C.均方误差(MSE)
D.R方值(R2)
答案:B
解析:准确率在样本不均衡时会被多数类主导(如99%负样本时,全预测负样本准确率99%但无意义);均方误差和R方值是回归模型指标;F1分数综合了精确率和召回率,适用于不均衡场景。
以下哪种方法最适合处理高维数据中的多重共线性问题?
A.主成分分析(PCA)
B.标准化(Z-score)
C.随机森林特征重要性
D.欠采样(Under-sampling)
答案:A
解析:多重共线性指特征间高度相关,PCA通过线性变换将高维数据投影到低维正交空间,消除共线性;标准化仅调整量纲,不解决共线性;特征重要性用于筛选特征;欠采样用于处理类别不平衡。
在逻辑回归模型中,正则化参数λ(Lambda)增大时,模型复杂度会:
A.不变
B.先增大后减小
C.减小
D.增大
答案:C
解析:正则化(如L2)通过惩罚大的权重参数抑制过拟合,λ越大,惩罚力度越强,模型更简单(复杂度降低)。
时间序列建模中,“季节性”指的是:
A.数据随时间呈现的长期递增/递减趋势
B.数据以固定周期重复的模式(如年度、月度)
C.数据中的随机波动部分
D.数据因外部事件产生的突发变化
答案:B
解析:趋势(Trend)是长期变化;季节性(Seasonality)是固定周期的重复模式(如夏季用电量高峰);随机波动是残差(Residual);突发变化是异常值(Outlier)。
以下哪项不属于特征工程中的“特征构造”?
A.从日期字段提取“星期几”
B.计算“收入/支出”作为新特征
C.用XGBoost计算特征重要性
D.将“年龄”分箱为“青年/中年/老年”
答案:C
解析:特征构造是生成新特征的过程(A、B、D均为构造);特征重要性计算属于特征选择,用于筛选已有特征。
评估回归模型时,“平均绝对误差(MAE)”与“均方误差(MSE)”的主要区别是:
A.MAE对异常值更敏感
B.MSE对异常值更敏感
C.MAE是无偏估计,MSE是有偏估计
D.MSE的单位与原数据一致
答案:B
解析:MSE计算误差的平方,会放大异常值的影响(如误差2变为4,误差3变为9);MAE是绝对误差,对异常值更鲁棒;两者均为无偏估计;MAE单位与原数据一致,MSE单位是平方。
以下哪种场景最适合使用K-means聚类?
A.预测用户是否会购买某商品(二分类)
B.识别客户群体的潜在细分(无监督)
C.预测房价(连续值)
D.检测信用卡交易中的异常操作(异常检测)
答案:B
解析:K-means是无监督学习,用于聚类(分组);A是分类任务(监督);C是回归任务(监督);D通常用孤立森林或LOF(局部离群因子)。
在模型调参中,“网格搜索(GridSearch)”与“随机搜索(RandomSearch)”的主要区别是:
A.网格搜索覆盖所有参数组合,随机搜索随机采样
B.随机搜索计算效率更低
C.网格搜索更适合高维参数空间
D.随机搜索无法找到最优解
答案:A
解析:网格搜索遍历预设参数网格的所有组合(计算成本高,适合低维);随机搜索随机采样参数组合(效率更高,适合高维);两者均可能找到近似最优解。
以下哪项是数据清洗中处理缺失值的合理方法?
A.直接删除所有含缺失值的样本(当缺失率50%时)
B.用变量均值填充时间序列数据的缺失值
C.对分类变量用“未知”作为新类别填充
D.对数值变量用最大值填充缺失值
答案:C
解析:缺失率50%时直接删除会丢失大量信息,应考虑插值或模型预测;时间序列需考虑时序性(如前向填充);用最大值填充可能引入异常值;分类变量用“未知”保留缺失信息是合理方法。
以下哪种模型属于生成式模型?
A.逻辑回归
B.支持向量机(SVM)
C.朴素贝叶斯
D.梯度提升树(GBDT)
答案:C
解析:生成式模型学习联合分布P(X,Y)(如朴素贝叶斯假设特征独立,学习P(X|Y)和P(Y));判别式模型学习条件分布P(Y|X)(逻辑回归、SVM、GBDT均属此类)。
二、多项选择题(共10题,每题2分,共20分)
数据预处理中,“数据标准化(Z-score)”的适用场景包括:
A.特征量纲差异大(如身高cm与体重kg)
B.模型对尺度敏感(如SVM、KNN)
C.时间序列数据的趋势分析
D.决策树类模型(如随机森林)
答案:AB
解析:标准化通过(X-μ)/σ消除量纲影响,适用于依赖距离计算的模型(SVM、KNN);时间序列趋势分析需保留原始尺度;决策树
您可能关注的文档
- 2025年健康评估师考试题库(附答案和详细解析)(1203).docx
- 2025年地方公务员考试题库(附答案和详细解析)(1204).docx
- 2025年思科认证网络专家(CCIE)考试题库(附答案和详细解析)(1204).docx
- 2025年无人机驾驶员考试题库(附答案和详细解析)(1127).docx
- 2025年智慧教育工程师考试题库(附答案和详细解析)(1201).docx
- 2025年注册气象工程师考试题库(附答案和详细解析)(1202).docx
- 2025年注册用户体验设计师(UXD)考试题库(附答案和详细解析)(1129).docx
- 2025年注册节能评估师考试题库(附答案和详细解析)(1204).docx
- 2025年精准医疗工程师考试题库(附答案和详细解析)(1203).docx
- 2025年绿色金融认证考试题库(附答案和详细解析)(1125).docx
原创力文档


文档评论(0)