- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
高级数据分析师考试试卷
一、单项选择题(共10题,每题1分,共10分)
在数据清洗过程中,针对高维稀疏数据中的缺失值,最适合的处理方法是()
A.直接删除缺失值所在行
B.用特征均值填补缺失值
C.使用随机森林模型预测填补
D.用相邻值插值填补
答案:C
解析:高维稀疏数据的缺失值具有复杂的非线性关系,直接删除(A)会导致数据丢失;均值填补(B)忽略特征间关联;相邻值插值(D)适用于时间序列数据;随机森林模型(C)能捕捉特征间交互,更适合高维稀疏场景。
评估回归模型时,以下哪个指标对异常值最敏感?()
A.均方误差(MSE)
B.平均绝对误差(MAE)
C.R2决定系数
D.中位数绝对误差(MedAE)
答案:A
解析:MSE(A)计算误差的平方,异常值会被平方放大影响;MAE(B)和MedAE(D)取绝对值或中位数,对异常值不敏感;R2(C)反映拟合优度,与异常值无直接关联。
AB测试中,若要检测两组转化率差异的显著性,应优先选择的统计检验方法是()
A.t检验
B.卡方检验
C.Z检验
D.方差分析(ANOVA)
答案:B
解析:转化率是二分类指标(成功/失败),卡方检验(B)适用于分类变量的独立性检验;t检验(A)和Z检验(C)用于连续变量均值比较;ANOVA(D)用于多组均值比较。
时间序列分析中,ARIMA模型的“MA”参数代表()
A.自回归阶数
B.移动平均阶数
C.差分阶数
D.季节性周期数
答案:B
解析:ARIMA(p,d,q)中,p是自回归(AR)阶数,d是差分阶数,q是移动平均(MA)阶数(B正确)。
以下哪种场景最适合使用协同过滤算法?()
A.预测用户是否会购买某商品
B.为用户推荐相似兴趣的其他用户
C.识别信用卡交易中的异常行为
D.分析用户评论的情感倾向
答案:B
解析:协同过滤基于用户-物品交互数据,推荐相似用户或物品(B);购买预测(A)常用逻辑回归;异常检测(C)用孤立森林;情感分析(D)用NLP模型。
特征工程中,对“用户注册时间”字段进行特征衍生时,最不相关的特征是()
A.注册月份是否为促销月
B.注册时间与当前时间的天数差
C.注册时的IP地址归属地
D.注册账号的字符长度
答案:D
解析:注册账号字符长度(D)与用户行为无直接关联;促销月(A)、时间差(B)、IP归属地(C)均可能影响用户价值或行为。
大数据平台中,Hive的核心功能是()
A.实时流数据处理
B.分布式存储
C.基于SQL的离线分析
D.内存计算框架
答案:C
解析:Hive是基于Hadoop的SQL查询引擎(C),用于离线分析;实时处理(A)用Flink;分布式存储(B)用HDFS;内存计算(D)用Spark。
业务场景中,“用户生命周期价值(LTV)”的核心计算要素不包括()
A.用户平均交易频次
B.用户获取成本(CAC)
C.用户平均客单价
D.用户留存率
答案:B
解析:LTV=(客单价×频次×留存周期),CAC(B)是成本指标,与LTV计算无关。
数据伦理中,“数据匿名化”的关键缺陷是()
A.计算复杂度高
B.可能通过关联分析重新识别个体
C.无法应用于结构化数据
D.会显著降低数据准确性
答案:B
解析:匿名化数据可能通过外部数据(如时间、地点)关联重新识别个体(B),是其核心缺陷;其他选项均不准确。
以下哪种机器学习算法属于生成式模型?()
A.逻辑回归
B.支持向量机(SVM)
C.朴素贝叶斯
D.随机森林
答案:C
解析:生成式模型学习联合概率P(X,Y),朴素贝叶斯(C)基于贝叶斯定理;判别式模型学习P(Y|X),如逻辑回归(A)、SVM(B)、随机森林(D)。
二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)
数据清洗时,处理异常值的常用方法包括()
A.用上下四分位数的1.5倍IQR作为阈值截断
B.将异常值替换为特征均值
C.保留异常值并在模型中增加鲁棒性参数
D.直接删除所有异常值
答案:AC
解析:IQR截断(A)是常见方法;保留并增加鲁棒性(如使用Huber损失)(C)适用于异常值包含业务意义的场景;均值替换(B)可能引入偏差;直接删除(D)可能丢失关键信息。
评估分类模型时,以下哪些指标同时考虑了精确率和召回率?()
A.F1分数
B.ROC曲线下面积(AUC)
C.精确率-召回率曲线(PR曲线)
D.准确率(Accuracy)
答案:AC
解析:F1是精确率和召回率的调和平均(A);PR曲线综合两者(C);AUC(B)基于TPR和FPR;准确率(D)=(TP+TN)/总样本。
特征选择的主要目的包括()
A.降低模型复杂度,防
您可能关注的文档
- 2025年特许公认会计师(ACCA)考试题库(附答案和详细解析)(1007).docx
- 2025年注册冶金工程师考试题库(附答案和详细解析)(1005).docx
- 2025年AI产品经理考试题库(附答案和详细解析)(1009).docx
- 2025年注册培训师(CCT)考试题库(附答案和详细解析)(1009).docx
- 2025年运动康复师考试题库(附答案和详细解析)(1007).docx
- 2025年注册结构工程师考试题库(附答案和详细解析)(1007).docx
- 2025年影视编导职业资格考试题库(附答案和详细解析)(1009).docx
- 2025年注册验船师考试题库(附答案和详细解析)(1007).docx
- 2025年注册投资项目分析师(CIPA)考试题库(附答案和详细解析)(1009).docx
- 2025年外交翻译考试(DFT)考试题库(附答案和详细解析)(1004).docx
最近下载
- 2025-2030主持召开非洲智能手机生产行业市场供需结构分析生产能力分析分析分析分析报告.docx
- 中考语文阅读理解《一副腰鼓板》含答案.docx VIP
- 转差频率控制.PPT VIP
- 2025-2026学年人教版三年级上册数学第二单元(混合运算)测试卷含答案(三套).docx VIP
- 致敬抗美援朝 争做时代新人——10.25抗美援朝纪念日主题班会(课件).pptx VIP
- 农村水系综合治理指南.pdf VIP
- 专题02 二次根式的性质(专项训练)(原卷版)数学北师大版2024八年级上册.docx VIP
- 水平定向钻施工方案定稿8.24.doc VIP
- 供应商供货不良处罚标准.docx VIP
- 人力资源管理师最新第四版-四级劳动关系管理(张家存).pdf VIP
文档评论(0)