- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据建模工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪种方法最适合处理分类变量的缺失值?
A.用均值填充
B.用众数填充
C.直接删除所有缺失行
D.用随机数填充
答案:B
解析:分类变量的缺失值处理需考虑其离散特性。均值(A)适用于数值变量;直接删除(C)可能导致数据损失;随机数(D)会引入噪声。众数(B)是分类变量中出现频率最高的值,能保持数据分布特征,因此最适合。
特征工程中,独热编码(One-HotEncoding)的主要目的是?
A.减少特征维度
B.消除特征量纲影响
C.将类别变量转化为数值变量
D.提升特征非线性表达能力
答案:C
解析:独热编码通过创建二进制列将分类变量(如“性别”)转化为数值形式(如[1,0]表示男性),本质是解决模型无法直接处理类别变量的问题(C正确)。其会增加维度(A错误),量纲消除需标准化(B错误),非线性表达依赖特征交叉或模型结构(D错误)。
分类任务中,当正负样本严重不平衡时,最适合的评估指标是?
A.准确率(Accuracy)
B.F1-score
C.均方误差(MSE)
D.精确率(Precision)
答案:B
解析:准确率(A)在样本不平衡时会因多数类主导而失效;均方误差(C)是回归指标;精确率(D)仅关注正样本预测正确的比例,忽略召回率。F1-score是精确率和召回率的调和平均(B),能综合评估不平衡数据下的模型性能。
以下哪种方法可有效缓解模型过拟合?
A.增加模型复杂度
B.减少训练数据量
C.添加L2正则化
D.降低学习率
答案:C
解析:过拟合源于模型对训练数据过度记忆。增加复杂度(A)、减少数据(B)会加剧过拟合;降低学习率(D)影响收敛速度而非复杂度。L2正则化通过在损失函数中添加权重平方和的惩罚项(C),限制模型参数大小,降低复杂度,缓解过拟合。
随机森林(RandomForest)属于哪种集成学习方法?
A.Boosting
B.Bagging
C.Stacking
D.Blending
答案:B
解析:随机森林通过自助采样(Bootstrap)生成多个训练集,并行训练多棵决策树(Bagging的核心),最终投票输出结果(B正确)。Boosting(A)是串行提升弱分类器(如XGBoost);Stacking(C)和Blending(D)是模型融合策略。
线性回归模型的损失函数通常是?
A.交叉熵损失
B.均方误差(MSE)
C.绝对误差(MAE)
D.Hinge损失
答案:B
解析:线性回归的目标是最小化预测值与真实值的平方差之和(B正确)。交叉熵(A)用于分类;MAE(C)对异常值更鲁棒但非线性回归默认选择;Hinge(D)是SVM的损失函数。
10折交叉验证(10-FoldCV)的主要作用是?
A.加速模型训练
B.减少计算资源消耗
C.评估模型泛化能力
D.提高模型准确率
答案:C
解析:交叉验证通过将数据分成10份,轮流用9份训练、1份验证,综合评估模型在不同数据子集上的表现(C正确)。其主要目的是更可靠地估计模型泛化能力,而非加速训练(A)、减少消耗(B)或直接提升准确率(D)。
决策树分裂时,信息增益(InformationGain)主要用于?
A.选择最优特征和分裂点
B.剪枝以防止过拟合
C.计算叶节点的类别概率
D.处理连续型特征
答案:A
解析:信息增益衡量分裂前后信息熵的减少量,值越大说明该特征对分类的贡献越大(A正确)。剪枝(B)通过复杂度惩罚实现;叶节点概率(C)由样本比例计算;连续特征处理需离散化(D)。
神经网络中,ReLU激活函数的主要优势是?
A.避免梯度消失
B.输出值在(0,1)之间
C.保证输出均值为0
D.支持多分类任务
答案:A
解析:ReLU(f(x)=max(0,x))在输入为正时梯度为1,避免了Sigmoid/tanh因梯度饱和导致的梯度消失问题(A正确)。输出范围(B)是Sigmoid的特性;均值为0(C)需通过标准化实现;多分类(D)依赖Softmax层。
模型部署时,以下哪项不是需要重点考虑的问题?
A.预测延迟
B.计算资源消耗
C.模型可解释性
D.训练数据分布
答案:D
解析:部署阶段关注模型在生产环境中的表现,包括延迟(A)、资源消耗(B)、可解释性(C,如金融场景需合规)。训练数据分布(D)是训练阶段需考虑的,部署时应关注实时数据与训练数据的分布一致性(即数据漂移)。
二、多项选择题(共10题,每题2分,共20分)
以下属于特征工程范畴的有?(至少2个正确选项)
A.特征缩放(如标准化)
B.处理缺失值(数据清洗)
C.特征分箱(离散化)
D.特征交叉(构造新特征)
答案
您可能关注的文档
- 儿童早餐的蛋白质含量与饱腹感持续时间.pptx
- 低组胺饮食对慢性荨麻疹患者症状严重程度的改善作用.pptx
- 肠息肉术后的复发预防营养方案.pptx
- 抑郁症患者青少年抑郁症的治疗特点.pptx
- 中年男性前列腺健康的饮食维护.pptx
- 胆囊结石患者饮食护理的护理查房.pptx
- 闭塞性细支气管炎的营养.pptx
- 早餐能量密度对儿童上午学习效率的影响观察.pptx
- 带状疱疹的衣物消毒.pptx
- 白内障的视力模糊程度.pptx
- 2025年普通话水平测试考试题库(附答案和详细解析)(0925).docx
- 2025年注册压力容器工程师考试题库(附答案和详细解析)(0926).docx
- 2025年注册地籍测绘师考试题库(附答案和详细解析)(0924).docx
- 2025年注册室内设计师考试题库(附答案和详细解析)(0925).docx
- 2025年注册家族财富管理师(CFWM)考试题库(附答案和详细解析)(0921).docx
- 2025年注册水利水电工程师考试题库(附答案和详细解析)(0925).docx
- 2025年注册焊接工程师考试题库(附答案和详细解析)(0917).docx
- 2025年注册职业卫生评估师考试题库(附答案和详细解析)(0925).docx
- 2025年注册船舶工程师考试题库(附答案和详细解析)(0925).docx
- 2025年注册财富管理师(CWM)考试题库(附答案和详细解析)(0923).docx
最近下载
- 统编版四年级上册语文第二单元习作:我的家人 课件(共23张PPT).ppt VIP
- (医学课件)干燥综合征PPT幻灯片.ppt VIP
- 水质理化检验-有机污染指标的测定.ppt
- 金蝶云星空 V9.0产品培训_PLM_安装部署.pptx VIP
- 心理健康教育课件《培养积极心态》.ppt VIP
- 2025年华医网继续教育幼年特发性关节炎护理新进展题库及答案.docx VIP
- 《宋故尚书左仆射叶颙考》《宋故尚书左仆射叶颙年表》(修订稿)-20121015.doc VIP
- 《分数除法》重难点突破.doc VIP
- 六年级数学上册第三单元《分数除法(一)》重难点题型练习(含答案).docx VIP
- 24J306(替代 07J306)窗井、设备吊装口、排水沟、集水坑.docx
文档评论(0)