2025年大数据分析与应用1+X证书中级考试（含答案解析）.docxVIP

下载本文档

0
0
约4.08千字
约 11页
2025-11-29 发布于湖南
举报
版权申诉

2025年大数据分析与应用1+X证书中级考试（含答案解析）.docx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2025年大数据分析与应用1+X证书中级考试（含答案解析）

第一部分：单项选择题（共20题，每题1分）

1、数据清洗的主要目的是？

A、聚合多源数据

B、去除噪声与错误值

C、生成可视化图表

D、训练预测模型

答案：B

解析：数据清洗核心是处理数据中的缺失值、错误值和重复值，提升数据质量。A是数据集成的任务，C是分析展示环节，D是建模步骤，均非清洗主要目的。

2、Hadoop中存储海量数据的组件是？

A、MapReduce

B、HDFS

C、YARN

D、Hive

答案：B

解析：HDFS（分布式文件系统）专为海量数据存储设计。MapReduce是计算框架，YARN是资源管理，Hive是数据仓库工具，均不承担核心存储功能。

3、结构化数据的典型格式是？

A、JSON文本

B、XML文档

C、关系型数据库表

D、社交媒体评论

答案：C

解析：结构化数据具有固定格式和严格字段，关系型数据库表（如Excel、SQL表）是典型代表。A、B属半结构化，D是非结构化。

4、数据可视化的核心目标是？

A、展示数据全貌

B、使用复杂图表

C、隐藏数据细节

D、替代数据分析

答案：A

解析：可视化通过图形化手段直观呈现数据特征与规律，辅助理解。B违背简洁原则，C掩盖关键信息，D是辅助而非替代分析。

5、SQL中LEFTJOIN的作用是？

A、返回两表全匹配行

B、返回左表所有行及右表匹配行

C、返回右表所有行及左表匹配行

D、返回两表无匹配行

答案：B

解析：LEFTJOIN保留左表全部记录，右表无匹配时用NULL填充。A是INNERJOIN，C是RIGHTJOIN，D是ANTIJOIN，均不符合定义。

6、K-means算法属于？

A、监督学习

B、无监督学习

C、强化学习

D、半监督学习

答案：B

解析：K-means通过数据自身特征聚类，无标签指导，属无监督学习。A需标签训练，C通过奖励机制学习，D部分标签，均不符。

7、数据标准化的主要作用是？

A、减少数据维度

B、消除量纲影响

C、提升存储效率

D、增强数据隐私

答案：B

解析：标准化（如Z-score）将数据转换为同一量纲，避免特征间尺度差异影响模型。A是降维任务，C是压缩技术，D是脱敏处理。

8、Spark中RDD的特性是？

A、不可变分布式数据集

B、内存计算临时变量

C、关系型表结构

D、实时流数据队列

答案：A

解析：RDD（弹性分布式数据集）是Spark核心抽象，具有不可变性和容错性。B是变量特性，C是DataFrame，D是Kafka功能。

9、简单随机抽样的关键是？

A、按比例分配样本

B、确保每个样本等概率被抽中

C、按类别分层抽样

D、按时间顺序抽取

答案：B

解析：简单随机抽样要求总体中每个个体被抽中的概率相等。A是分层抽样，C是分层抽样特点，D是系统抽样，均非关键。

10、PCA算法的主要目的是？

A、特征选择

B、特征提取（降维）

C、异常检测

D、关联分析

答案：B

解析：PCA（主成分分析）通过线性变换将高维数据投影到低维空间，属于特征提取的降维方法。A是选择原有特征，C、D是其他任务。

11、Apriori算法用于？

A、分类预测

B、聚类分析

C、关联规则挖掘

D、时间序列预测

答案：C

解析：Apriori是经典关联规则算法，用于发现数据项之间的频繁关联。A用决策树等，B用K-means，D用ARIMA，均不匹配。

12、数据仓库的主要特点是？

A、支持实时事务处理

B、面向主题存储

C、数据实时更新

D、存储原始日志数据

答案：B

解析：数据仓库是面向主题、集成、非易失、随时间变化的数据集合，支持分析决策。A、C是OLTP数据库特点，D是数据湖功能。

13、ETL中“T”代表？

A、转换（Transform）

B、传输（Transfer）

C、测试（Test）

D、存储（Store）

答案：A

解析：ETL是抽取（Extract）、转换（Transform）、加载（Load）的缩写，转换包括清洗、标准化等处理步骤。其他选项非标准定义。

14、数据质量的“完整性”指？

A、数据无重复记录

B、数据格式符合要求

C、关键字段无缺失

D、数据与实际一致

答案：C

解析：完整性衡量关键数据是否存在缺失（如必填字段为空）。A是唯一性，B是一致性，D是准确性，均属不同质量维度。

15、Kafka的核心功能是？

A、分布式计算

B、消息队列与流处理

C、数据库管理

D、数据可视化

答案：B

解析：Kafka是高吞吐量的分布式消息队列，支持实时流数据的发布与订阅。A是Spark/Hadoop，C是MySQL，D是Tableau，均不匹配。

16、数据脱敏技术主要用于？

A、提升计算效率

B、保护隐私信息

C、减少存储成本

D、增强数据完整性

答案：B

解析：脱敏

您可能关注的文档

文档评论（0）

小Tt + 关注: 实名认证

文档贡献者

一级建造师持证人

繁华落幕

咨询Ta 进入空间

领域认证该用户于2023年11月03日上传了一级建造师

1亿VIP精品文档

更多 >

2025年大数据分析与应用1+X证书中级考试（含答案解析）.docxVIP