大数据工程师试题带答案.docx

大数据工程师试题带答案.docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大数据工程师试题带答案

姓名:__________班级:__________成绩:__________

1.以下哪种数据结构常用于大数据排序场景?()

A.数组B.链表C.堆D.栈

2.下列关于Hadoop的说法,错误的是()

A.是一个分布式计算框架B.核心组件包括HDFS和MapReduce

C.不适合处理大规模数据D.可运行在廉价硬件上

3.在Hive中,用于创建表的语句是()

A.CREATEVIEWB.CREATETABLEC.ALTERTABLED.DROPTABLE

4.以下哪个是分布式文件系统?()

A.NTFSB.FAT32C.HDFSD.EXT4

5.Spark的核心组件不包括()

A.SparkCoreB.SparkSQLC.HBaseD.SparkStreaming

6.数据挖掘中的聚类算法主要用于()

A.数据分类B.数据关联规则挖掘C.数据分组D.数据预测

7.下列关于Kafka的说法,正确的是()

A.是一个消息队列系统B.不支持分布式C.只能处理文本消息D.没有

持久化机制

8.大数据处理流程中,数据清洗的目的不包括()

A.去除噪声数据B.填补缺失值C.增加数据量D.纠正不一致数据

9.在MapReduce中,Map阶段的主要任务是()

A.数据分组B.数据归约C.数据映射D.结果输出

10.以下哪种编程语言常用于大数据开发?()

A.JavaB.PythonC.C++D.以上都是

11.数据仓库的主要特点不包括()

A.面向主题B.集成性C.实时性D.稳定性

12.下列关于HBase的说法,错误的是()

A.是一个分布式数据库B.适合存储结构化数据C.基于LSM树结构D.

具有高并发读写能力

13.机器学习中的监督学习算法需要()

A.有标注数据B.无标注数据C.实时数据D.历史数据

14.在Storm中,用于实时处理的拓扑结构中包含()

A.SpoutB.BoltC.两者都是D.两者都不是

15.大数据存储中,常用的列式存储数据库是()

A.CassandraB.MySQLC.OracleD.MongoDB

16.数据可视化的主要目的是()

A.让数据更美观B.便于理解和分析数据C.展示技术实力D.存储数据

17.下列关于Scala语言的说法,正确的是()

A.是一种函数式编程语言B.不支持面向对象C.与Java不兼容D.执

行效率低

18.在大数据安全方面,以下哪种技术用于数据加密?()

A.Hadoop加密B.SSL/TLSC.数据脱敏D.以上都是

19.以下哪个工具常用于数据ETL过程?()

A.SqoopB.FlumeC.ZookeeperD.Kafka

20.机器学习算法中,逻辑回归主要用于()

A.回归分析B.分类问题C.聚类分析D.关联规则挖掘

21.关于数据仓库的星型模型,以下说法正确的是()

A.包含一个事实表和多个维度表B.只有事实表C.只有维度表D.所有

表地位相同

22.下列哪种算法不属于无监督学习算法?()

A.K-MeansB.决策树C.主成分分析D.高斯混合模型

23.在Hadoop生态系统中,用于资源管理的组件是()

A.YARNB.HDFSC.MapReduceD.Hive

24.大数据环境下,数据的增长速度通常被描述为()

A.线性增长B.指数增长C.对数增长D.稳定增长

25.以下哪种数据库适合处理海量的非结构化数据?()

A.ElasticsearchB.PostgreSQLC.RedisD.Memcached

26.在Spark中,用于处理流数据的窗口函数可以()

A.对窗口内的数据进行聚合操作B.只能处理固定窗口C.不能处理滑动

窗口D.不支持数据转换

27.数据挖掘中的频繁项集挖掘算法,如Apriori算法,主要用于()

A.发现数据中的频繁模式B.进行数据分类C.预测数据趋势D.数据降

28.下列关于分布式计算框架对比,说法错误的是()

A.Spark比MapReduce计算速度快B.Flink在流处理方面有优势C.

Storm实时性不如SparkD.Hadoop不支持分布式计算

29.在大数据

文档评论(0)

金属大师 + 关注
实名认证
内容提供者

各种文化典故,学科知识,生活常识,中小学文档等等,你需要的都在这里。

1亿VIP精品文档

相关文档