- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年大数据分析与应用1+X证书中级考试(含答案解析)
第一部分:单项选择题(共20题,每题1分)
1、数据清洗的主要目的是?
A、聚合多源数据
B、去除噪声与错误值
C、生成可视化图表
D、训练预测模型
答案:B
解析:数据清洗核心是处理数据中的缺失值、错误值和重复值,提升数据质量。A是数据集成的任务,C是分析展示环节,D是建模步骤,均非清洗主要目的。
2、Hadoop中存储海量数据的组件是?
A、MapReduce
B、HDFS
C、YARN
D、Hive
答案:B
解析:HDFS(分布式文件系统)专为海量数据存储设计。MapReduce是计算框架,YARN是资源管理,Hive是数据仓库工具,均不承担核心存储功能。
3、结构化数据的典型格式是?
A、JSON文本
B、XML文档
C、关系型数据库表
D、社交媒体评论
答案:C
解析:结构化数据具有固定格式和严格字段,关系型数据库表(如Excel、SQL表)是典型代表。A、B属半结构化,D是非结构化。
4、数据可视化的核心目标是?
A、展示数据全貌
B、使用复杂图表
C、隐藏数据细节
D、替代数据分析
答案:A
解析:可视化通过图形化手段直观呈现数据特征与规律,辅助理解。B违背简洁原则,C掩盖关键信息,D是辅助而非替代分析。
5、SQL中LEFTJOIN的作用是?
A、返回两表全匹配行
B、返回左表所有行及右表匹配行
C、返回右表所有行及左表匹配行
D、返回两表无匹配行
答案:B
解析:LEFTJOIN保留左表全部记录,右表无匹配时用NULL填充。A是INNERJOIN,C是RIGHTJOIN,D是ANTIJOIN,均不符合定义。
6、K-means算法属于?
A、监督学习
B、无监督学习
C、强化学习
D、半监督学习
答案:B
解析:K-means通过数据自身特征聚类,无标签指导,属无监督学习。A需标签训练,C通过奖励机制学习,D部分标签,均不符。
7、数据标准化的主要作用是?
A、减少数据维度
B、消除量纲影响
C、提升存储效率
D、增强数据隐私
答案:B
解析:标准化(如Z-score)将数据转换为同一量纲,避免特征间尺度差异影响模型。A是降维任务,C是压缩技术,D是脱敏处理。
8、Spark中RDD的特性是?
A、不可变分布式数据集
B、内存计算临时变量
C、关系型表结构
D、实时流数据队列
答案:A
解析:RDD(弹性分布式数据集)是Spark核心抽象,具有不可变性和容错性。B是变量特性,C是DataFrame,D是Kafka功能。
9、简单随机抽样的关键是?
A、按比例分配样本
B、确保每个样本等概率被抽中
C、按类别分层抽样
D、按时间顺序抽取
答案:B
解析:简单随机抽样要求总体中每个个体被抽中的概率相等。A是分层抽样,C是分层抽样特点,D是系统抽样,均非关键。
10、PCA算法的主要目的是?
A、特征选择
B、特征提取(降维)
C、异常检测
D、关联分析
答案:B
解析:PCA(主成分分析)通过线性变换将高维数据投影到低维空间,属于特征提取的降维方法。A是选择原有特征,C、D是其他任务。
11、Apriori算法用于?
A、分类预测
B、聚类分析
C、关联规则挖掘
D、时间序列预测
答案:C
解析:Apriori是经典关联规则算法,用于发现数据项之间的频繁关联。A用决策树等,B用K-means,D用ARIMA,均不匹配。
12、数据仓库的主要特点是?
A、支持实时事务处理
B、面向主题存储
C、数据实时更新
D、存储原始日志数据
答案:B
解析:数据仓库是面向主题、集成、非易失、随时间变化的数据集合,支持分析决策。A、C是OLTP数据库特点,D是数据湖功能。
13、ETL中“T”代表?
A、转换(Transform)
B、传输(Transfer)
C、测试(Test)
D、存储(Store)
答案:A
解析:ETL是抽取(Extract)、转换(Transform)、加载(Load)的缩写,转换包括清洗、标准化等处理步骤。其他选项非标准定义。
14、数据质量的“完整性”指?
A、数据无重复记录
B、数据格式符合要求
C、关键字段无缺失
D、数据与实际一致
答案:C
解析:完整性衡量关键数据是否存在缺失(如必填字段为空)。A是唯一性,B是一致性,D是准确性,均属不同质量维度。
15、Kafka的核心功能是?
A、分布式计算
B、消息队列与流处理
C、数据库管理
D、数据可视化
答案:B
解析:Kafka是高吞吐量的分布式消息队列,支持实时流数据的发布与订阅。A是Spark/Hadoop,C是MySQL,D是Tableau,均不匹配。
16、数据脱敏技术主要用于?
A、提升计算效率
B、保护隐私信息
C、减少存储成本
D、增强数据完整性
答案:B
解析:脱敏
您可能关注的文档
- 2025年茶艺师职业技能等级认定中级实操考试(含答案解析).docx
- 2025年产后恢复职业技能等级认定初级考试(含答案解析).docx
- 2025年产后恢复职业技能等级认定高级考试(含答案解析).docx
- 2025年产后恢复职业技能等级认定中级考试(含答案解析).docx
- 2025年产后康复师岗位专项技能培训考试(含答案解析).docx
- 2025年宠物护理与美容1+X职业技能等级证书初级考试(含答案解析).docx
- 2025年宠物护理与美容1+X职业技能等级证书高级考试(含答案解析).docx
- 2025年传感网应用开发1+X证书初级考试(含答案解析).docx
- 2025年传感网应用开发1+X证书高级考试(含答案解析).docx
- 2025年传感网应用开发1+X证书中级考试题库(含答案解析).docx
最近下载
- 汉语基础知识修订省名师优质课赛课获奖课件市赛课一等奖课件.pptx VIP
- 基础汉语初级上册(课件).ppt VIP
- 4M1E确认检查表模板.xls VIP
- 初级汉语汉语教程课件.ppt VIP
- CSC-163系列数字式线路保护装置说明书(0SF.451.029)_V1.04.docx
- 汉语会话301句我不能去市公开课一等奖省赛课微课金奖PPT课件.pptx VIP
- 汉语会话301句-第16课:你看过京剧吗?.pptx VIP
- 美团商业画布.pptx VIP
- Huntorf压缩空气储能电站 - 超过20年的成功运营.pdf VIP
- 《汉语口语速成(入门篇)》和《汉语会话301句》练习对比研究.pdf VIP
原创力文档


文档评论(0)