- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据建模工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪种模型最适合处理线性可分的二分类问题?
A.支持向量机(核函数为RBF)
B.逻辑回归
C.随机森林
D.K近邻(K=3)
答案:B
解析:逻辑回归是基于线性回归的分类模型,假设数据线性可分,通过sigmoid函数输出概率,最适合线性可分场景。A选项的RBF核SVM适用于非线性数据;C选项随机森林是集成模型,适用于复杂非线性关系;D选项KNN依赖数据分布,对线性可分问题效率较低。
特征工程中,信息价值(IV值)主要用于评估:
A.特征的缺失率
B.特征与目标变量的相关性
C.特征的离散程度
D.特征的多重共线性
答案:B
解析:IV值(InformationValue)是衡量特征对目标变量预测能力的指标,值越大表示特征与目标的相关性越强。A是缺失值统计指标;C常用方差或标准差衡量;D用VIF(方差膨胀因子)评估。
分类模型评估中,F1分数的计算基于:
A.准确率和召回率
B.精确率和准确率
C.精确率和召回率
D.召回率和AUC-ROC
答案:C
解析:F1分数是精确率(Precision)和召回率(Recall)的调和平均值,公式为(F1=2)。准确率是整体正确分类比例,AUC-ROC是综合正负样本区分能力的指标,均不直接参与F1计算。
以下哪种方法最不能缓解模型过拟合?
A.增加训练数据量
B.降低模型复杂度(如减少决策树深度)
C.增加正则化参数λ
D.对输入数据进行标准化
答案:D
解析:数据标准化(如Z-score)仅调整特征尺度,不影响模型复杂度或泛化能力,无法缓解过拟合。A通过增加数据多样性提升泛化;B减少模型拟合噪声的能力;C通过正则化惩罚复杂模型,均能缓解过拟合。
处理数值型特征的缺失值时,若数据分布存在严重右偏,最合理的填充方法是:
A.均值填充
B.中位数填充
C.众数填充
D.随机值填充
答案:B
解析:中位数对极端值不敏感,适合偏态分布数据;均值易受极端值影响(右偏时均值大于中位数),会扭曲数据分布;众数适用于分类型特征;随机填充引入噪声,不可取。
随机森林(RandomForest)的核心思想属于:
A.Bagging
B.Boosting
C.Stacking
D.迁移学习
答案:A
解析:随机森林通过自助采样(Bootstrap)生成多个独立决策树,最终结果由投票或平均得到,属于Bagging(BootstrapAggregating)方法。Boosting(如XGBoost)是串行优化弱模型;Stacking是模型融合;迁移学习是跨领域建模。
在小样本场景下,最适合的交叉验证方法是:
A.简单交叉验证(7:3划分)
B.K折交叉验证(K=5)
C.留一交叉验证(LOOCV)
D.分层交叉验证
答案:C
解析:留一交叉验证每次用n-1个样本训练,1个测试,无数据浪费,适合小样本(n≤100)。A/B会损失部分数据;D用于类别不平衡,不直接解决小样本问题。
模型部署时,以下哪种格式支持跨框架模型转换(如PyTorch转TensorFlow)?
A.HDF5
B.ONNX
C.SavedModel
D.Joblib
答案:B
解析:ONNX(开放神经网络交换格式)是跨框架的模型表示标准,支持不同框架间的模型迁移。A是HDF5存储格式;C是TensorFlow专属;D是Python对象序列化工具。
L1正则化(Lasso)的主要作用是:
A.防止梯度消失
B.使模型参数更稀疏(很多参数为0)
C.降低模型偏差
D.加速模型训练
答案:B
解析:L1正则化在损失函数中加入参数绝对值之和,会迫使部分参数趋近于0,实现特征选择(稀疏解)。L2正则化(Ridge)使参数更小但非零;防止梯度消失需调整激活函数或初始化;降低偏差需增加模型复杂度;加速训练靠优化器或硬件。
ARIMA模型中参数d表示:
A.自回归阶数
B.移动平均阶数
C.差分次数
D.季节周期
答案:C
解析:ARIMA(p,d,q)中,p是自回归阶数(AR部分),d是差分次数(消除非平稳性),q是移动平均阶数(MA部分)。季节周期由SARIMA的参数s表示。
二、多项选择题(共10题,每题2分,共20分)
以下属于特征选择的常用方法有:
A.卡方检验
B.方差膨胀因子(VIF)
C.互信息(MI)
D.随机森林特征重要性
答案:ACD
解析:卡方检验(分类特征与目标的相关性)、互信息(衡量变量间依赖程度)、随机森林重要性(基于特征分裂时的信息增益)均是特征选择方法。VIF用于检测多重共线性,属于特征质量评估,非选择方法。
模型出现过拟合时,可能的表现有:
A.
您可能关注的文档
最近下载
- 备品备件的供应及保障措施.docx VIP
- 高质量数据集建设实施路径(34页 PPT).pptx VIP
- python用遗传算法优化神经网络_使用Python优化神经网络参数的遗传算法.pdf VIP
- 部编版语文四年级上册必背必考段落背默填空训练.docx VIP
- 中医医院临床路径管理制度汇编.docx VIP
- DGTJ08-60-2017 机械式停车库(场)设计规程.pdf VIP
- 在线网课学习课堂《人工智能(北理 )》单元测试考核答案.pdf VIP
- 民用机场物联网平台建设指南(TCCAATB 0032-2022).pdf VIP
- 十遗传算法与优化问题.ppt VIP
- 盐类的水解公开课.ppt VIP
原创力文档


文档评论(0)