大数据基础与应用测试题及答案.docxVIP

下载本文档

0
0
约3.44千字
约 5页
2025-11-24 发布于河北
举报
版权申诉

大数据基础与应用测试题及答案.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据基础与应用测试题及答案

一、单项选择题（共10题，每题3分，共30分）

以下哪种技术不属于大数据存储架构的核心组件？（）

A.HDFSB.RedisC.MySQLD.HBase

大数据的“4V”特征不包括以下哪一项？（）

A.海量性（Volume）B.高速性（Velocity）C.真实性（Veracity）D.易处理性（Vulnerability）

下列哪种场景最适合使用流处理框架（如Flink、SparkStreaming）？（）

A.历史销售数据月度汇总分析B.实时电商订单交易监控C.客户画像离线构建D.年度财务报表数据计算

Hadoop生态中，负责资源调度与管理的组件是？（）

A.MapReduceB.YARNC.HiveD.ZooKeeper

数据清洗过程中，处理缺失值的常用方法不包括（）

A.删除缺失记录B.均值填充C.随机生成填充D.回归模型预测填充

下列哪种数据属于非结构化数据？（）

A.电商订单表中的订单金额B.社交媒体上的用户评论文本C.员工信息表中的部门编号D.传感器采集的温度数值

Spark与HadoopMapReduce相比，核心优势不包括（）

A.支持内存计算B.批处理速度更快C.仅支持Java语言开发D.支持流处理和机器学习

数据仓库的核心作用是（）

A.实时存储高频交易数据B.整合多源数据，支持决策分析C.替代数据库进行日常业务操作D.存储非结构化的视频文件

下列哪种算法不属于大数据常用的机器学习算法？（）

A.逻辑回归B.决策树C.冒泡排序D.随机森林

数据脱敏技术中，将“手机号138XXXX1234”处理为“138****1234”属于哪种方式？（）

A.替换B.掩码C.加密D.删除

二、多项选择题（共5题，每题4分，共20分，多选、少选、错选均不得分）

以下属于Hadoop生态系统核心组件的有（）

A.HDFSB.MapReduceC.SparkD.HiveE.Kafka

大数据采集的常用工具或方式包括（）

A.FlumeB.SqoopC.爬虫技术D.数据库直连抽取E.Excel手动录入

数据质量评估的关键指标包括（）

A.准确性B.完整性C.一致性D.时效性E.安全性

实时大数据处理平台的核心要求有（）

A.低延迟B.高吞吐C.高可用D.数据可回溯E.无需容错机制

以下属于大数据应用场景的有（）

A.电商平台商品推荐B.金融风险欺诈检测C.交通流量实时调度D.学生考试成绩统计E.医疗影像辅助诊断

三、简答题（共3题，每题10分，共30分）

简述MapReduce的核心工作流程。

什么是数据湖？它与数据仓库的主要区别是什么？

大数据项目中，数据安全防护需要关注哪些方面？

四、实操分析题（共1题，20分）

某电商平台收集了用户的浏览记录、下单记录、收藏记录等数据，需构建用户购买意向预测模型。请回答以下问题：

（1）该项目的核心数据来源有哪些？需要进行哪些数据预处理操作？（10分）

（2）如果模型预测准确率较低，可能的原因有哪些？如何优化？（10分）

参考答案

一、单项选择题

C（MySQL是关系型数据库，适用于结构化数据存储，非大数据核心存储架构）

D（4V为Volume、Velocity、Variety、Veracity，易处理性非核心特征）

B（流处理适合实时监控类场景，其余为离线处理场景）

B（YARN负责Hadoop集群的资源调度）

C（随机生成填充会破坏数据真实性，非常用方法）

B（文本、图片、视频等属于非结构化数据）

C（Spark支持Java、Scala、Python等多种语言）

B（数据仓库核心是支持决策分析，A是数据库功能，D是文件存储）

C（冒泡排序是基础排序算法，非机器学习算法）

B（掩码技术通过隐藏部分敏感信息实现脱敏）

二、多项选择题

ABD（HDFS、MapReduce、Hive是Hadoop核心组件；Spark是独立计算框架，Kafka是消息队列）

ABCD（Excel手动录入不属于大数据采集常用工具）

ABCD（安全性是数据防护指标，非质量评估指标）

ABCD（实时处理需容错机制保障数据准确性）

ABCE（学生成绩统计属于传统数据应用，非大数据场景）

三

您可能关注的文档

文档评论（0）

151****9429 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大数据基础与应用测试题及答案.docxVIP