- 2
- 0
- 约9.39千字
- 约 12页
- 2026-01-31 发布于上海
- 举报
高级数据分析师考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪种统计量最适合描述数据分布的偏态程度?
A.方差
B.标准差
C.偏度系数
D.峰度系数
答案:C
解析:偏度系数(Skewness)用于衡量数据分布的不对称性,正值表示右偏,负值表示左偏;方差和标准差衡量数据离散程度;峰度系数(Kurtosis)衡量数据分布的尖峰或平尾程度。因此正确答案为C。
在机器学习中,L1正则化的主要作用是?
A.防止过拟合,同时实现特征选择
B.防止欠拟合,提升模型复杂度
C.加速梯度下降收敛速度
D.减少计算过程中的数值误差
答案:A
解析:L1正则化通过在损失函数中加入参数绝对值的和(L1范数),会使部分参数变为0,从而自动剔除不重要的特征(特征选择),同时降低模型复杂度,防止过拟合;L2正则化(岭回归)主要防止过拟合但不会产生稀疏解。因此正确答案为A。
以下哪项不是A/B测试的必要条件?
A.两组样本独立随机分配
B.实验前样本量满足统计显著性要求
C.实验期间其他变量保持不变(除干预变量)
D.实验组与对照组样本量完全相等
答案:D
解析:A/B测试要求样本随机分配(保证无偏)、样本量足够(避免第一类/第二类错误)、控制其他变量(排除混杂因素),但实验组与对照组样本量无需完全相等(通常按1:1或其他比例分配)。因此正确答案为D。
时间序列分析中,ARIMA模型的“MA”代表?
A.自回归(AutoRegressive)
B.移动平均(MovingAverage)
C.差分(Integrated)
D.季节调整(Seasonal)
答案:B
解析:ARIMA模型由三部分组成:AR(自回归,p阶)、I(差分,d阶)、MA(移动平均,q阶)。MA部分通过过去误差项的线性组合拟合当前值。因此正确答案为B。
在数据可视化中,“辛普森悖论”最可能通过哪种图表暴露?
A.散点图
B.分组柱状图
C.热力图
D.箱线图
答案:B
解析:辛普森悖论指分组数据与整体数据趋势相反的现象(如分组中A方案优于B,但整体B更优),分组柱状图可直观展示各子组与整体的差异;散点图主要展示变量间相关性,热力图展示矩阵数据密度,箱线图展示分布特征。因此正确答案为B。
以下哪种场景最适合使用决策树模型?
A.高维稀疏文本数据分类(如垃圾邮件识别)
B.小样本量的医学诊断规则提取
C.时间序列预测(如股票价格)
D.大规模实时推荐系统
答案:B
解析:决策树擅长提取可解释的规则,适合小样本、需要业务理解的场景(如医学诊断);高维稀疏数据通常用逻辑回归或神经网络,时间序列用ARIMA或LSTM,实时推荐系统需高效模型(如协同过滤)。因此正确答案为B。
数据仓库(DataWarehouse)与数据湖(DataLake)的核心区别是?
A.数据存储介质(磁盘vs云存储)
B.数据结构化程度(结构化vs非结构化)
C.数据访问速度(实时vs批量)
D.数据来源数量(单一vs多源)
答案:B
解析:数据仓库主要存储结构化数据(如关系型数据库表),需预先定义模式(Schema-on-Write);数据湖存储原始、多格式数据(结构化/半结构化/非结构化),采用模式后期绑定(Schema-on-Read)。因此正确答案为B。
在特征工程中,“WOE编码”(WeightofEvidence)主要用于?
A.处理类别特征的高基数问题(如地区编码)
B.降低连续特征的维度(如用户年龄分段)
C.衡量特征对目标变量的预测能力(如信用评分)
D.消除特征间的多重共线性(如收入与消费)
答案:C
解析:WOE编码通过计算每个分箱中正负样本的比例对数,衡量特征分箱与目标变量的相关性,常用于信用评分等二分类场景;处理高基数类别特征常用目标编码或嵌入,降维用PCA,消除共线性用VIF或正则化。因此正确答案为C。
以下哪项属于“第二型错误”(β错误)?
A.原假设为真时拒绝原假设(弃真)
B.原假设为假时接受原假设(取伪)
C.备择假设为真时拒绝备择假设
D.备择假设为假时接受备择假设
答案:B
解析:第一型错误(α错误)是“弃真”(原假设为真但拒绝),第二型错误(β错误)是“取伪”(原假设为假但接受)。因此正确答案为B。
在K-means聚类中,“肘部法则”(ElbowMethod)用于确定?
A.初始质心的位置
B.最优的簇数k
C.数据标准化的方法
D.距离度量的选择(欧氏距离vs余弦相似度)
答案:B
解析:肘部法则通过计算不同k值下的簇内平方和(SSE),寻找SSE下降速率突变的“拐点”,确定最优簇数;初始质心通常随机选择或用k-means++,数据标准化需提前处理,距离度量根据业务场景选
您可能关注的文档
- 2026年体育经纪人资格证考试题库(附答案和详细解析)(0102).docx
- 2026年加拿大注册会计师(CPACanada)考试题库(附答案和详细解析)(0111).docx
- 2026年国际风险管理师(PRM)考试题库(附答案和详细解析)(0105).docx
- 2026年应急救援指挥师考试题库(附答案和详细解析)(0103).docx
- 2026年教师资格证考试考试题库(附答案和详细解析)(0104).docx
- 2026年机器人操作工程师考试题库(附答案和详细解析)(0111).docx
- 2026年注册市场营销师(CMM)考试题库(附答案和详细解析)(0107).docx
- 2026年注册测绘师考试题库(附答案和详细解析)(0109).docx
- 2026年注册测量师考试题库(附答案和详细解析)(0110).docx
- 2026年注册空调工程师考试题库(附答案和详细解析)(0108).docx
最近下载
- 2025中国(辽宁)自由贸易试验区大连片区(大连保税区)面向国内外公开招聘笔试历年参考题库附带答案详解.pdf
- 邹仲之《组织学与胚胎学》4血液.ppt VIP
- 2025年水路运输工作总结和2026年工作计划.docx VIP
- ams抗菌药物管理课件.pptx VIP
- 传染病流行病学调查规范.docx VIP
- 砀山经济开发区市政道路工程(1-3标段)砀山经济开发区市政道路工程(1-3标段).doc VIP
- 2025年企业云会计在医药行业的应用与合规性报告.docx VIP
- 国网风区分布图(2024年版)上册.pdf VIP
- Fujifilm富士 相机 GFX100RF 用户手册.pdf
- 中国教育史:战国时期的教育PPT教学课件.pptx VIP
原创力文档

文档评论(0)