2025年最新公需科目大数据考核题库完整版(含答案).docxVIP

下载本文档

0
0
约3.82千字
约 13页
2025-07-14 发布于四川
举报
版权申诉

2025年最新公需科目大数据考核题库完整版(含答案).docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2025年最新公需科目大数据考核题库完整版(含答案)

一、单项选择题

1.下列哪项不属于大数据的“4V”特征？

A.大量（Volume）

B.高速（Velocity）

C.多样（Variety）

D.高精度（Veracity）

答案：D

2.Hadoop框架的核心组件中，负责分布式存储的是？

A.MapReduce

B.HDFS

C.HBase

D.Hive

答案：B

3.数据清洗的主要目的是？

A.增加数据量

B.消除数据中的错误、冗余和不一致

C.提升数据存储效率

D.转换数据格式

答案：B

4.下列属于分布式计算框架的是？

A.MySQL

B.Spark

C.Redis

D.Oracle

答案：B

5.数据仓库与传统数据库的主要区别在于？

A.数据仓库支持事务处理，数据库支持分析处理

B.数据仓库存储实时数据，数据库存储历史数据

C.数据仓库面向分析，数据库面向事务

D.数据仓库结构固定，数据库结构灵活

答案：C

6.常用的数据可视化工具中，适合制作动态交互图表的是？

A.Excel

B.Tableau

C.SPSS

D.Python

答案：B

7.隐私计算技术的核心目标是？

A.提升数据计算速度

B.在不共享原始数据的前提下完成联合计算

C.压缩数据存储体积

D.增强数据加密强度

答案：B

8.下列属于非结构化数据的是？

A.财务报表

B.客户姓名和年龄

C.监控视频

D.订单编号

答案：C

9.数据湖（DataLake）的主要特点是？

A.仅存储结构化数据

B.存储原始的、未经过处理的数据

C.严格遵循预定义的模式（Schema）

D.主要用于事务处理

答案：B

10.大数据在医疗领域的应用不包括？

A.疾病预测模型构建

B.电子病历标准化管理

C.药品研发中的靶点筛选

D.医院收费系统实时结账

答案：D

二、多项选择题

1.大数据的关键技术包括？

A.分布式存储技术

B.实时流处理技术

C.数据可视化技术

D.机器学习算法

答案：ABCD

2.Hadoop生态中属于数据存储层的组件有？

A.HDFS

B.HBase

C.Hive

D.Spark

答案：AB

3.数据清洗的常见操作包括？

A.处理缺失值（如填充、删除）

B.检测并纠正异常值

C.删除重复记录

D.增加随机数据以平衡样本

答案：ABC

4.隐私保护技术主要包括？

A.数据匿名化（如K-匿名、L-多样性）

B.数据加密（如AES、RSA）

C.差分隐私（添加可控噪声）

D.数据脱敏（如替换、掩码）

答案：ABCD

5.数据挖掘的常见任务有？

A.分类（Classification）

B.聚类（Clustering）

C.关联规则挖掘（AssociationRules）

D.数据清洗（DataCleaning）

答案：ABC

三、判断题

1.大数据的核心价值在于数据本身的规模，而非分析能力。（）

答案：×

2.HDFS（Hadoop分布式文件系统）适合存储大量小文件。（）

答案：×

3.数据清洗是一次性过程，完成后无需再次处理。（）

答案：×

4.机器学习是大数据分析的高级阶段，用于从数据中自动提取模式。（）

答案：√

5.数据湖主要存储经过结构化处理的高价值数据。（）

答案：×

四、简答题

1.简述大数据“4V”特征的具体含义。

答案：Volume（大量）：数据规模巨大，通常达到TB、PB甚至EB级别；Velocity（高速）：数据产生和处理速度快，需实时或近实时分析；Variety（多样）：数据类型复杂，包括结构化（表格）、半结构化（JSON、XML）、非结构化（文本、图像、视频）；Value（价值）：数据价值密度低，需通过分析挖掘隐含价值。

2.说明Hadoop架构中HDFS与MapReduce的分工。

答案：HDFS（Hadoop分布式文件系统）负责海量数据的分布式存储，将大文件分割为块（Block）并存储在多台服务器上，提供高容错性和高吞吐量；MapReduce是分布式计算框架，将任务分解为Map（映射）和Reduce（归约）两个阶段，并行处理存储在