大数据工程师试题带答案.docx

下载文档

0
0
约5.4千字
约 16页
2025-07-05 发布于山西
举报
版权申诉
保障服务

大数据工程师试题带答案.docx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据工程师试题带答案

姓名：__________班级：__________成绩：__________

1.以下哪种数据结构常用于大数据排序场景？（）

A.数组B.链表C.堆D.栈

2.下列关于Hadoop的说法，错误的是（）

A.是一个分布式计算框架B.核心组件包括HDFS和MapReduce

C.不适合处理大规模数据D.可运行在廉价硬件上

3.在Hive中，用于创建表的语句是（）

A.CREATEVIEWB.CREATETABLEC.ALTERTABLED.DROPTABLE

4.以下哪个是分布式文件系统？（）

A.NTFSB.FAT32C.HDFSD.EXT4

5.Spark的核心组件不包括（）

A.SparkCoreB.SparkSQLC.HBaseD.SparkStreaming

6.数据挖掘中的聚类算法主要用于（）

A.数据分类B.数据关联规则挖掘C.数据分组D.数据预测

7.下列关于Kafka的说法，正确的是（）

A.是一个消息队列系统B.不支持分布式C.只能处理文本消息D.没有

持久化机制

8.大数据处理流程中，数据清洗的目的不包括（）

A.去除噪声数据B.填补缺失值C.增加数据量D.纠正不一致数据

9.在MapReduce中，Map阶段的主要任务是（）

A.数据分组B.数据归约C.数据映射D.结果输出

10.以下哪种编程语言常用于大数据开发？（）

A.JavaB.PythonC.C++D.以上都是

11.数据仓库的主要特点不包括（）

A.面向主题B.集成性C.实时性D.稳定性

12.下列关于HBase的说法，错误的是（）

A.是一个分布式数据库B.适合存储结构化数据C.基于LSM树结构D.

具有高并发读写能力

13.机器学习中的监督学习算法需要（）

A.有标注数据B.无标注数据C.实时数据D.历史数据

14.在Storm中，用于实时处理的拓扑结构中包含（）

A.SpoutB.BoltC.两者都是D.两者都不是

15.大数据存储中，常用的列式存储数据库是（）

A.CassandraB.MySQLC.OracleD.MongoDB

16.数据可视化的主要目的是（）

A.让数据更美观B.便于理解和分析数据C.展示技术实力D.存储数据

17.下列关于Scala语言的说法，正确的是（）

A.是一种函数式编程语言B.不支持面向对象C.与Java不兼容D.执

行效率低

18.在大数据安全方面，以下哪种技术用于数据加密？（）

A.Hadoop加密B.SSL/TLSC.数据脱敏D.以上都是

19.以下哪个工具常用于数据ETL过程？（）

A.SqoopB.FlumeC.ZookeeperD.Kafka

20.机器学习算法中，逻辑回归主要用于（）

A.回归分析B.分类问题C.聚类分析D.关联规则挖掘

21.关于数据仓库的星型模型，以下说法正确的是（）

A.包含一个事实表和多个维度表B.只有事实表C.只有维度表D.所有

表地位相同

22.下列哪种算法不属于无监督学习算法？（）

A.K-MeansB.决策树C.主成分分析D.高斯混合模型

23.在Hadoop生态系统中，用于资源管理的组件是（）

A.YARNB.HDFSC.MapReduceD.Hive

24.大数据环境下，数据的增长速度通常被描述为（）

A.线性增长B.指数增长C.对数增长D.稳定增长

25.以下哪种数据库适合处理海量的非结构化数据？（）

A.ElasticsearchB.PostgreSQLC.RedisD.Memcached

26.在Spark中，用于处理流数据的窗口函数可以（）

A.对窗口内的数据进行聚合操作B.只能处理固定窗口C.不能处理滑动

窗口D.不支持数据转换

27.数据挖掘中的频繁项集挖掘算法，如Apriori算法，主要用于（）

A.发现数据中的频繁模式B.进行数据分类C.预测数据趋势D.数据降

维

28.下列关于分布式计算框架对比，说法错误的是（）

A.Spark比MapReduce计算速度快B.Flink在流处理方面有优势C.

Storm实时性不如SparkD.Hadoop不支持分布式计算

29.在大数据

您可能关注的文档

文档评论（0）

金属大师 + 关注: 实名认证

内容提供者

各种文化典故，学科知识，生活常识，中小学文档等等，你需要的都在这里。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大数据工程师试题带答案.docx