- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
高级数据分析师考试试卷(总分100分)
一、单项选择题(共10题,每题1分,共10分)
在分类模型评估中,F1分数的计算公式是以下哪项?
A.精确率与召回率的算术平均数
B.精确率与召回率的调和平均数
C.准确率与特异度的算术平均数
D.准确率与召回率的调和平均数
答案:B
解析:F1分数是精确率(Precision)和召回率(Recall)的调和平均数,公式为(F1=2)。调和平均更能反映两者的均衡性,而算术平均(选项A)无法体现这种特性;准确率(Accuracy)是整体正确比例,特异度(Specificity)是负样本正确识别率,均与F1无关(选项C、D错误)。
时间序列分析中,ARIMA(p,d,q)模型的“d”参数表示?
A.自回归阶数
B.移动平均阶数
C.差分次数
D.周期长度
答案:C
解析:ARIMA模型中,p为自回归(AR)阶数,q为移动平均(MA)阶数,d为使序列平稳所需的差分次数(如d=1表示一阶差分)。周期长度是季节性ARIMA(SARIMA)的参数(选项D错误)。
以下哪种特征处理方法适用于无序分类变量?
A.标签编码(LabelEncoding)
B.独热编码(One-HotEncoding)
C.序数编码(OrdinalEncoding)
D.标准化(Standardization)
答案:B
解析:无序分类变量(如性别“男/女”)无顺序关系,独热编码通过二进制向量避免引入顺序假设(选项B正确)。标签编码(选项A)和序数编码(选项C)会隐含顺序,适用于有序变量(如学历“高中/本科/硕士”);标准化用于连续变量(选项D错误)。
AB测试中,若要检验两组转化率是否有显著差异,通常采用?
A.单样本t检验
B.双样本t检验
C.卡方检验
D.方差分析(ANOVA)
答案:C
解析:转化率是二分类指标(成功/失败),卡方检验适用于检验两个分类变量的独立性(选项C正确)。t检验用于连续变量(选项A、B错误);方差分析用于多组连续变量比较(选项D错误)。
数据仓库的星型模型与雪花模型的核心区别是?
A.事实表的数量
B.维度表的规范化程度
C.数据存储量
D.查询性能
答案:B
解析:星型模型的维度表未规范化(冗余存储),雪花模型的维度表进一步规范化(拆分为子表)。两者事实表数量无本质区别(选项A错误);雪花模型通过规范化减少冗余,但可能降低查询性能(选项D是结果而非核心区别)。
为解决机器学习模型的过拟合问题,以下哪种方法最有效?
A.增加训练数据量
B.减少特征数量
C.提高模型复杂度
D.去除正则化
答案:A
解析:过拟合的本质是模型对训练数据的噪声过度学习,增加数据量可提升模型泛化能力(选项A正确)。减少特征数量(选项B)可能丢失关键信息;提高复杂度(选项C)会加剧过拟合;去除正则化(选项D)会削弱对参数的约束。
数据质量的“完整性”主要指?
A.数据是否符合业务规则
B.数据是否存在缺失值
C.数据是否准确反映真实世界
D.数据是否一致可追溯
答案:B
解析:完整性衡量数据是否存在缺失(如字段为空、记录缺失);准确性(选项C)指数据与真实值的匹配程度;一致性(选项D)指不同系统间数据的统一;业务规则符合性(选项A)属于有效性。
关联规则分析中,“支持度”的计算公式是?
A.包含A和B的事务数/总事务数
B.包含A的事务中包含B的比例
C.实际支持度/期望支持度
D.正确预测的正例数/总正例数
答案:A
解析:支持度(Support)是同时包含A和B的事务占总事务的比例(选项A正确);置信度(Confidence)是包含A的事务中包含B的比例(选项B);提升度(Lift)是支持度与期望支持度的比值(选项C);召回率(选项D)是分类模型指标。
自然语言处理(NLP)中,词嵌入(WordEmbedding)的主要作用是?
A.统计词语出现频率
B.将词语映射到低维连续向量空间
C.去除文本中的停用词
D.识别文本中的实体
答案:B
解析:词嵌入(如Word2Vec)通过神经网络将词语转换为低维稠密向量,捕捉语义相关性(选项B正确)。统计频率(选项A)是词袋模型的功能;去停用词(选项C)是文本清洗步骤;实体识别(选项D)是命名实体识别(NER)任务。
商业智能(BI)工具Tableau的核心功能是?
A.数据抽取、转换、加载(ETL)
B.大规模数据存储与计算
C.交互式数据可视化与分析
D.机器学习模型训练
答案:C
解析:Tableau是可视化工具,支持拖拽式操作生成交互式图表(选项C正确)。ETL(选项A)是Kettle、DataWorks的功能;数据存储(选项B)是Hadoop、Spark
您可能关注的文档
- 2025年儿童发展指导师考试题库(附答案和详细解析)(1216).docx
- 2025年工业互联网工程师考试题库(附答案和详细解析)(1211).docx
- 2025年机器学习工程师考试题库(附答案和详细解析)(1206).docx
- 2025年注册交互设计师考试题库(附答案和详细解析)(1208).docx
- 2025年注册电气工程师考试题库(附答案和详细解析)(1130).docx
- CPA会计科目中“新收入准则”的重难点突破与应用.docx
- SAT语法改进试题及解析.doc
- 一级建造师建筑工程题库及分析.doc
- 业务外包与真派遣假外包.docx
- 互换期权定价的改进模型.docx
- 2026云南普洱景东县教体系统事业单位急需紧缺人才招聘26人(公共基础知识)测试题带答案解析.docx
- 2026中建七局校园招聘(公共基础知识)综合能力测试题带答案解析.docx
- 2025年健康保险场景化设计十年发展报告.docx
- 2026中国铁路昆明局集团有限公司普通高校毕业生招聘28人(一)(公共基础知识)综合能力测试题附答案.docx
- 税务简易征收课件.pptx
- 2025年生物农药十年推广病虫害生态农业适配技术报告.docx
- 2025山西临汾安泽县社区工作者招聘备考题库(27人)附答案详解(黄金题型).docx
- 2026中国邮政校园招聘(公共基础知识)综合能力测试题附答案解析.docx
- 2025年乡村非遗活化利用行业趋势分析报告.docx
- 2025山西临汾安泽县社区工作者招聘备考题库(27人)附答案详解(突破训练).docx
最近下载
- 世界建筑史(南京大学) 超星尔雅学习通网课章节测试答案.docx VIP
- AO3400宽体数据手册下载.pdf VIP
- 22J943-1、22G621-1 既有建筑改造设计与施工(既有住宅增设电梯).docx VIP
- 6.2交友的智慧 (课件)-2025-2026学年 道德与法治 七年级上册(统编版).pptx VIP
- 车管所保安保洁服务保洁服务实施方案.docx VIP
- 标准图集-20S515-钢筋混凝土及砖砌排水检查井.pdf VIP
- 车管所保安保洁服务保安服务实施方案.docx VIP
- 高考英语书面表达模板(最新版).docx VIP
- 20S515钢筋混凝土及砖砌排水检查井.pptx VIP
- 天行山海一期工程(施工)招标文件.pdf VIP
原创力文档


文档评论(0)