- 1、本文档共78页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据开发基础习题库(2025年第12部分)
(该部分共500题)
1.[单选题]Spark中Job的划分是依据()。
A)依赖
B)Action算子
C)Transformation算子
答案:B
解析:Action的触发会生成一个Job,Job会提交给DAGScheduler分解成Stage。因此Job是由Action算子划分的,B正确
。
2.[单选题]Hadoop作者
A)MartinFowler
B)KentBeck
C)Dougcutting
答案:C
解析:a.MartinFowler【敏捷开发方法论-软件开发教父】
b.KentBeck【极限编程,测试驱动开发,实现模式】
c.Dougcutting√【Hadoop作者,道格·卡廷】
3.[单选题]对HDFS通信协议的理解错误的是().
A)客户端与数据节点的交互是通过RPC(RemoteProcedureCall)来实现的
B)客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互
C)名称节点和数据节点之间则使用数据节点协议进行交互
D)HDFS通信协议都是构建在IoT协议基础之上的
答案:D
解析:
4.[单选题]一般情况下,若要提高Elasticsearch检索效率,可以采取什么操作?
A)增加EsMaster节点
B)使用Hive做底层存储
C)调整索引分片数
D)压缩索引
答案:C
解析:
5.[单选题]在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括
副本)
A)200
B)40000
C)600
D)1200
答案:D
解析:
6.[单选题]业务部门梳理本专业(),制定数据转换需求,提高数据可读性,丰富完善一手数据资源。
A)原始数据
1/78
B)结构化数据
C)非结构化数据
D)所有数据
答案:C
解析:
7.[单选题]某大数据业务人员需针对某些数据创建Hive表结构,其中某个数据为时间类型ywyMMdd,那么可以使用以下
哪一项作为字段类型?
A)Int
B)double
C)stringD
D)varcahr
答案:C
解析:
8.[单选题]以下说法错误的是()
A)Logistic回归可用于预测事件发生概率的大小
B)Logistic回归的目标函数是最小化后验概率
C)SVM的目标的结构风险最小化
D)SVM可以有效避免模型过拟合
答案:B
解析:
9.[单选题]以下哪个选项不能做为Kafka的Consumer?
A)Hadoop
B)Real-timeMonitoring
C)FrontEnd
D)DataWarehouse
答案:C
解析:
10.[单选题]下列Python文件模式中,不可写的模式是(___)。
A)“r”
B)“W”
C)“a”
D)“W+”
答案:A
解析:
11.[单选题]以下描述错误的是:()
A)传统的关系数据库可以较好地支持结构化数据存储和管理
B)Web0的迅猛发展以及大数据时代的到来,使关系数据库的发展越来越力不从心
C)传统的关系数据库由于数据模型不灵活、水平扩展能力较差等局限性,已经无法满足各种类型的非结构化数据的大
规模存储需求
D)传统关系数据库引以为豪的一些关键特性,如事务机制和支持复杂査询,在Web0时代成为不可或缺的核心特性
答案:D
解析:
12.[单选题]HBase中需要根据某些因素来确定一个单元格,这些因素可以视为一个“四维坐标”,下面哪个不属于“四
维坐标”?
A)行键
文档评论(0)