大数据基础与应用综合试题及答案.docxVIP

下载本文档

0
0
约3.4千字
约 4页
2025-11-24 发布于河北
举报
版权申诉

大数据基础与应用综合试题及答案.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据基础与应用综合试题及答案

一、单项选择题（共10题，每题3分，共30分）

下列哪项不属于大数据的“4V”特征？（）

A.海量性（Volume）B.高速性（Velocity）C.真实性（Veracity）D.易处理性（Vulnerability）

Hadoop生态系统中，负责分布式存储的组件是（）

A.MapReduceB.HDFSC.YARND.HBase

以下哪种技术适合处理实时流式数据？（）

A.HiveB.SparkStreamingC.HDFSD.MySQL

数据清洗的核心目的是（）

A.增加数据量B.去除无效、错误或重复数据C.加密敏感数据D.转换数据格式

关于Spark与MapReduce的对比，下列说法正确的是（）

A.Spark处理速度比MapReduce慢B.Spark支持迭代计算，中间结果可存于内存

C.MapReduce支持实时数据处理D.两者均不支持分布式计算

下列哪种数据库属于NoSQL数据库？（）

A.OracleB.MySQLC.MongoDBD.SQLServer

大数据处理流程中，“数据脱敏”属于哪个阶段的操作？（）

A.数据采集B.数据预处理C.数据存储D.数据可视化

负责协调Hadoop集群资源分配的组件是（）

A.HDFSB.YARNC.MapReduceD.Zookeeper

下列哪项不是数据可视化的常用工具？（）

A.TableauB.EChartsC.HadoopD.PowerBI

在MapReduce编程模型中，“Map”阶段的主要作用是（）

A.合并结果数据B.将大任务拆分并处理C.分配计算资源D.存储中间数据

二、填空题（共5题，每题4分，共20分）

大数据处理的经典流程包括：数据采集、________、数据存储、数据处理、数据可视化。

HBase是基于________的分布式列存储数据库，适合存储非结构化和半结构化数据。

Spark的核心抽象是________，它是一个不可变的分布式数据集。

数据挖掘中常用的关联规则算法是________，常用于购物篮分析等场景。

分布式文件系统HDFS的Block默认大小在Hadoop2.x版本中是________MB。

三、简答题（共3题，每题10分，共30分）

简述Hadoop生态系统的核心组件及其各自的功能。

什么是数据湖？它与数据仓库的主要区别是什么？

简述流式计算与批处理计算的差异，并举出各自的典型应用场景。

四、计算题（共1题，每题20分，共20分）

假设某电商平台的用户行为数据中，有100万条用户购买记录。其中，购买了商品A的用户有30万人，购买了商品B的用户有20万人，同时购买了商品A和商品B的用户有10万人。请计算：

（1）支持度（A→B）（即同时购买A和B的用户占总用户的比例）；

（2）置信度（A→B）（即购买A的用户中同时购买B的比例）；

（3）提升度（A→B）（即置信度（A→B）与支持度（B）的比值）。

参考答案

一、单项选择题

D解析：大数据4V特征为海量性（Volume）、高速性（Velocity）、多样性（Variety）、真实性（Veracity），易处理性不属于。

B解析：HDFS（HadoopDistributedFileSystem）是Hadoop的分布式存储组件，MapReduce负责计算，YARN负责资源调度，HBase是列存储数据库。

B解析：SparkStreaming是Spark的实时流式处理模块，Hive用于离线数据仓库，HDFS是存储，MySQL是关系型数据库，均不适合实时流式处理。

B解析：数据清洗的核心是去除无效、错误、重复数据，保证数据质量，A、C、D均非核心目的。

B解析：Spark基于内存计算，处理速度比MapReduce快，支持迭代计算；MapReduce不支持实时处理，两者均支持分布式计算。

C解析：MongoDB是文档型NoSQL数据库，Oracle、MySQL、SQLServer均为关系型数据库。

B解析：数据脱敏是对敏感数据进行处理（如替换、加密）的操作，属于数据预处理阶段。

B解析：YARN（YetAnotherResourceNegotiator）负责Hadoop集群的资

您可能关注的文档

文档评论（0）

151****9429 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大数据基础与应用综合试题及答案.docxVIP