- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据工程师试题带答案
姓名:__________班级:__________成绩:__________
1.以下哪种数据结构常用于大数据排序场景?()
A.数组B.链表C.堆D.栈
2.下列关于Hadoop的说法,错误的是()
A.是一个分布式计算框架B.核心组件包括HDFS和MapReduce
C.不适合处理大规模数据D.可运行在廉价硬件上
3.在Hive中,用于创建表的语句是()
A.CREATEVIEWB.CREATETABLEC.ALTERTABLED.DROPTABLE
4.以下哪个是分布式文件系统?()
A.NTFSB.FAT32C.HDFSD.EXT4
5.Spark的核心组件不包括()
A.SparkCoreB.SparkSQLC.HBaseD.SparkStreaming
6.数据挖掘中的聚类算法主要用于()
A.数据分类B.数据关联规则挖掘C.数据分组D.数据预测
7.下列关于Kafka的说法,正确的是()
A.是一个消息队列系统B.不支持分布式C.只能处理文本消息D.没有
持久化机制
8.大数据处理流程中,数据清洗的目的不包括()
A.去除噪声数据B.填补缺失值C.增加数据量D.纠正不一致数据
9.在MapReduce中,Map阶段的主要任务是()
A.数据分组B.数据归约C.数据映射D.结果输出
10.以下哪种编程语言常用于大数据开发?()
A.JavaB.PythonC.C++D.以上都是
11.数据仓库的主要特点不包括()
A.面向主题B.集成性C.实时性D.稳定性
12.下列关于HBase的说法,错误的是()
A.是一个分布式数据库B.适合存储结构化数据C.基于LSM树结构D.
具有高并发读写能力
13.机器学习中的监督学习算法需要()
A.有标注数据B.无标注数据C.实时数据D.历史数据
14.在Storm中,用于实时处理的拓扑结构中包含()
A.SpoutB.BoltC.两者都是D.两者都不是
15.大数据存储中,常用的列式存储数据库是()
A.CassandraB.MySQLC.OracleD.MongoDB
16.数据可视化的主要目的是()
A.让数据更美观B.便于理解和分析数据C.展示技术实力D.存储数据
17.下列关于Scala语言的说法,正确的是()
A.是一种函数式编程语言B.不支持面向对象C.与Java不兼容D.执
行效率低
18.在大数据安全方面,以下哪种技术用于数据加密?()
A.Hadoop加密B.SSL/TLSC.数据脱敏D.以上都是
19.以下哪个工具常用于数据ETL过程?()
A.SqoopB.FlumeC.ZookeeperD.Kafka
20.机器学习算法中,逻辑回归主要用于()
A.回归分析B.分类问题C.聚类分析D.关联规则挖掘
21.关于数据仓库的星型模型,以下说法正确的是()
A.包含一个事实表和多个维度表B.只有事实表C.只有维度表D.所有
表地位相同
22.下列哪种算法不属于无监督学习算法?()
A.K-MeansB.决策树C.主成分分析D.高斯混合模型
23.在Hadoop生态系统中,用于资源管理的组件是()
A.YARNB.HDFSC.MapReduceD.Hive
24.大数据环境下,数据的增长速度通常被描述为()
A.线性增长B.指数增长C.对数增长D.稳定增长
25.以下哪种数据库适合处理海量的非结构化数据?()
A.ElasticsearchB.PostgreSQLC.RedisD.Memcached
26.在Spark中,用于处理流数据的窗口函数可以()
A.对窗口内的数据进行聚合操作B.只能处理固定窗口C.不能处理滑动
窗口D.不支持数据转换
27.数据挖掘中的频繁项集挖掘算法,如Apriori算法,主要用于()
A.发现数据中的频繁模式B.进行数据分类C.预测数据趋势D.数据降
维
28.下列关于分布式计算框架对比,说法错误的是()
A.Spark比MapReduce计算速度快B.Flink在流处理方面有优势C.
Storm实时性不如SparkD.Hadoop不支持分布式计算
29.在大数据
文档评论(0)