2025年大数据分析与应用1+X证书考试模拟题(四)(含答案解析).docxVIP

2025年大数据分析与应用1+X证书考试模拟题(四)(含答案解析).docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年大数据分析与应用1+X证书考试模拟题(四)(含答案解析)

第一部分:单项选择题(共20题,每题1分)

1、数据清洗中处理缺失值的常用方法是?

A删除记录

B填充均值

C忽略不管

D替换符号

答案:B

解析:数据清洗中缺失值处理需平衡数据完整性与分析准确性。删除记录(A)可能导致样本偏差;忽略不管(C)会直接影响后续分析结果;替换符号(D)无明确业务意义。填充均值(B)是数值型变量最常用的缺失值处理方法,能保持数据分布特征。

2、HDFS中负责管理文件元数据的节点是?

ADataNode

BNameNode

CSecondaryNameNode

DJournalNode

答案:B

解析:HDFS架构中,NameNode(B)是主节点,负责存储文件元数据(如文件块位置、副本数)及管理文件系统命名空间。DataNode(A)存储具体数据块;SecondaryNameNode(C)辅助NameNode元数据检查点;JournalNode(D)用于高可用集群日志同步,均不负责元数据管理。

3、SQL中对分组后数据过滤应使用?

AWHERE

BHAVING

CORDERBY

DGROUPBY

答案:B

解析:WHERE(A)用于对原始表数据行进行过滤,作用于分组前;HAVING(B)专门用于对GROUPBY分组后的结果进行条件筛选;ORDERBY(C)用于排序;GROUPBY(D)用于分组操作本身。

4、下列不属于结构化数据的是?

A数据库表

BExcel表格

C网页文本

D统计报表

答案:C

解析:结构化数据具有固定格式和明确字段(如数据库表、Excel、统计报表),便于用二维表结构表示。网页文本(C)属于半结构化或非结构化数据,无统一字段约束,需额外解析。

5、K-means聚类的核心是?

A计算余弦相似度

B最小化类内距离

C最大化类间距离

D确定决策边界

答案:B

解析:K-means通过迭代将数据点分配到最近的簇中心,目标是最小化所有数据点到其所属簇中心的距离平方和(类内距离)。余弦相似度(A)是文本相似度度量;最大化类间距离(C)是判别分析目标;决策边界(D)是分类算法特征。

6、数据可视化的核心目标是?

A展示技术复杂度

B清晰传递信息

C使用丰富色彩

D制作动态效果

答案:B

解析:数据可视化的本质是通过图形化手段帮助用户快速理解数据内涵。展示技术(A)、丰富色彩(C)、动态效果(D)是辅助手段,核心目标是清晰传递信息(B)。

7、Hive中用于定义表结构的语句是?

ASELECT

BINSERT

CCREATETABLE

DDROPTABLE

答案:C

解析:CREATETABLE(C)用于定义表的列名、数据类型及存储格式;SELECT(A)用于查询;INSERT(B)用于插入数据;DROPTABLE(D)用于删除表,均不涉及表结构定义。

8、下列属于非关系型数据库的是?

AMySQL

BOracle

CMongoDB

DSQLServer

答案:C

解析:MySQL(A)、Oracle(B)、SQLServer(D)均为关系型数据库,采用表结构存储。MongoDB(C)是文档型NoSQL数据库,使用BSON格式存储,属于非关系型数据库。

9、数据标准化的主要目的是?

A增加数据量

B消除量纲影响

C提高数据精度

D减少数据维度

答案:B

解析:不同变量可能具有不同量纲(如身高cm与体重kg),标准化(如Z-score)通过将数据转换为均值0、标准差1的分布,消除量纲差异对模型的影响。增加数据量(A)需数据采集;提高精度(C)依赖测量工具;减少维度(D)是降维任务。

10、Spark中RDD的特性不包括?

A不可变

B可分区

C可持久化

D实时更新

答案:D

解析:RDD(弹性分布式数据集)是不可变(A)、可分区(B)、可持久化(C)的分布式集合。因其不可变性,无法实时更新(D),修改操作会生成新RDD。

11、下列属于监督学习的是?

AK-means聚类

B主成分分析

C线性回归

D关联规则挖掘

答案:C

解析:监督学习需要标签数据(输入-输出对),线性回归(C)通过训练数据学习输入特征与连续输出的关系。聚类(A)、主成分分析(B)、关联规则(D)均为无监督学习,无需标签。

12、数据仓库的核心特征是?

A实时性高

B面向事务

C支持查询分析

D数据易变

答案:C

解析:数据仓库是面向主题、集成、非易变、时变的数据集合,主要支持决策分析(C)。实时性(A)、面向事务(B)、数据易变(D)是OLTP数据库的特征。

13、HBase的存储模型是?

A键值对

B二维表

C文档

D图结构

答案:A

解析:HBase基于HDFS构建,采用键值对(RowKey+列族+时间戳)的存储模型(A)。二维表(B)是关系型数据库;

文档评论(0)

小Tt + 关注
实名认证
服务提供商

一级建造师、一级造价工程师持证人

专注于文案、招投标文件、企业体系规章制定的个性定制,修改,润色等,本人已有11年相关工作经验,具有扎实的文案功底,可承接演讲稿、读后感、招投标文件等多方面的工作。欢迎大家咨询~

领域认证该用户于2023年11月03日上传了一级建造师、一级造价工程师

1亿VIP精品文档

相关文档