联通创新人才认证(大数据)考试题库(附答案).docxVIP

下载本文档

1
0
约9.03千字
约 24页
2025-10-21 发布于四川
举报
版权申诉

联通创新人才认证(大数据)考试题库(附答案).docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

联通创新人才认证(大数据)考试题库(附答案)

一、单项选择题（共20题，每题2分，共40分）

1.以下关于HDFS（HadoopDistributedFileSystem）的描述中，错误的是（）

A.HDFS默认块大小为128MB

B.NameNode负责管理文件元数据和数据块位置信息

C.数据块副本数可通过dfs.replication参数设置，默认值为3

D.HDFS适合存储大量小文件

答案：D

解析：HDFS设计初衷是处理大文件，小文件会占用NameNode内存，影响元数据管理效率。

2.Spark中RDD（ResilientDistributedDatasets）的特性不包括（）

A.不可变性（Immutable）

B.分区性（Partitioned）

C.惰性计算（LazyEvaluation）

D.实时性（Realtime）

答案：D

解析：RDD是弹性分布式数据集，支持离线计算和批处理，实时性由SparkStreaming（基于微批处理）或Flink实现。

3.在Kafka中，以下哪个概念用于标识消息的分组，消费者通过它订阅消息？（）

A.Topic

B.Partition

C.Offset

D.ConsumerGroup

答案：D

解析：ConsumerGroup是消费者的逻辑分组，同一组内的消费者共同消费Topic的分区，避免重复消费。

4.Hive中，以下哪种文件格式不支持事务和ACID操作？（）

A.ORC

B.Parquet

C.TextFile

D.Avro

答案：C

解析：Hive的ACID特性需要ORC或Parquet格式支持，TextFile为纯文本，不支持事务。

5.关于Flink的时间类型，以下描述正确的是（）

A.事件时间（EventTime）是数据生成的时间，需依赖水印（Watermark）处理乱序数据

B.处理时间（ProcessingTime）是数据到达算子的时间，无需水印机制

C.摄入时间（IngestionTime）是数据进入Flink流的时间，精度高于事件时间

D.以上均正确

答案：D

解析：事件时间依赖水印处理乱序，处理时间基于算子本地时间，摄入时间介于事件时间和处理时间之间，三者描述均正确。

6.数据仓库建模中，星型模型与雪花模型的主要区别是（）

A.星型模型只有事实表和维度表，雪花模型对维度表进一步规范化

B.星型模型支持更多维度，雪花模型维度表更少

C.星型模型适用于实时分析，雪花模型适用于离线分析

D.星型模型存储成本更高，雪花模型查询效率更高

答案：A

解析：雪花模型通过规范化维度表减少冗余，但增加了查询时的连接复杂度；星型模型维度表未规范化，查询更快。

7.以下不属于数据清洗主要任务的是（）

A.处理缺失值

B.纠正数据格式错误

C.合并重复记录

D.增加数据维度

答案：D

解析：数据清洗是提高数据质量的过程，包括去重、填补缺失、纠正错误等；增加维度属于数据变换或特征工程。

8.在HBase中，RowKey的设计原则不包括（）

A.散列性：避免热点写

B.长度越短越好：减少存储和IO开销

C.有序性：支持范围查询

D.随机性：完全随机分布

答案：D

解析：HBase基于RowKey排序存储，完全随机的RowKey会导致数据分散，影响范围查询效率。

9.以下哪项不是Kafka生产者的关键参数？（）

A.acks

B.retries

C.group.id

D.batch.size

答案：C

解析：group.id是消费者参数，用于标识消费者组；生产者参数包括acks（确认机制）、retries（重试次数）、batch.size（批次大小）。

10.关于数据湖（DataLake）与数据仓库（DataWarehouse）的对比，错误的是（）

A.数据湖存储原始数据（RawData），数据仓库存储结构化的清洗数据

B.数据湖支持多类型数据（结构化、半结构化、非结构化），数据仓库以结构化为主

C.数据湖的分析工具更灵活（如Spark、Presto），数据仓库依赖SQL

D.数据湖的适用场景更偏向OLTP（在线事务处理）

答案：D

解析：数据湖和数据仓库均面向分析（OLAP），OLTP是数据库的典型场景。

11.Spark中，以下操作属于转换（Transformation）的是（）

您可能关注的文档

文档评论（0）

134****9025 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

联通创新人才认证(大数据)考试题库(附答案).docxVIP