- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据工程师职业资格认证考试试卷
一、单项选择题(共10题,每题1分,共10分)
HDFS默认的块大小是以下哪一项?
A.64MB
B.128MB
C.256MB
D.512MB
答案:B
解析:HDFS默认块大小为128MB(Hadoop2.x及以上版本),设计目的是减少NameNode内存占用并提高大文件处理效率。选项A是Hadoop1.x的默认块大小;C、D为常见配置调整值,但非默认。
以下哪个组件属于Hadoop生态中的资源管理系统?
A.HBase
B.YARN
C.Hive
D.Spark
答案:B
解析:YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理系统,负责集群资源的分配和任务调度。HBase是分布式列式数据库(A错误),Hive是数据仓库工具(C错误),Spark是计算框架(D错误)。
Spark中RDD的转换操作(Transformation)具有以下哪个特性?
A.立即执行计算
B.生成新的RDD
C.直接输出结果
D.仅支持内存计算
答案:B
解析:转换操作(如map、filter)是惰性的,不会立即执行,而是生成新的RDD(B正确)。行动操作(如count、collect)才会触发计算(A、C错误);RDD支持内存或磁盘存储(D错误)。
以下哪种场景最适合使用Flink进行处理?
A.每日用户行为日志离线分析
B.实时股票行情数据流处理
C.历史销售数据批量统计
D.数据仓库全量数据更新
答案:B
解析:Flink是流处理框架,擅长低延迟、高吞吐的实时数据流处理(如实时股票行情)。离线分析(A、C)和批量更新(D)更适合Spark或MapReduce。
Hive中分区(Partition)的主要作用是?
A.提高查询时的扫描效率
B.增加数据存储的冗余性
C.实现事务性操作
D.支持复杂SQL语法
答案:A
解析:Hive通过分区将数据按目录存储(如按日期分区),查询时只需扫描特定分区,减少数据扫描量(A正确)。冗余性由HDFS保证(B错误),事务性需开启ACID(C错误),复杂SQL支持与分区无关(D错误)。
数据仓库(DataWarehouse)的核心特性不包括?
A.面向主题
B.实时性
C.集成性
D.时变性
答案:B
解析:数据仓库的核心特性是面向主题(A)、集成性(C)、非易失性(长期存储)、时变性(随时间更新,D)。实时性是实时数据库或流处理系统的特性(B错误)。
以下哪个工具通常用于大数据的元数据管理?
A.ApacheAtlas
B.ApacheKafka
C.ApacheZooKeeper
D.ApacheAirflow
答案:A
解析:ApacheAtlas是元数据管理工具,用于数据资产的分类、血缘追踪和治理(A正确)。Kafka是消息队列(B错误),ZooKeeper是分布式协调服务(C错误),Airflow是任务调度(D错误)。
数据清洗中处理缺失值的常用方法不包括?
A.删除缺失值所在行
B.用均值/中位数填充
C.用随机数填充
D.基于模型预测填充
答案:C
解析:缺失值处理方法包括删除(A)、统计值填充(B)、模型预测(D)。随机数填充会破坏数据分布,通常不推荐(C错误)。
以下哪种数据库适合存储海量半结构化日志数据?
A.MySQL
B.HBase
C.Redis
D.Oracle
答案:B
解析:HBase是分布式列式数据库,支持海量数据存储和高并发读写,适合半结构化日志(B正确)。MySQL/Oracle是关系型数据库(A、D错误),Redis是内存数据库(C错误)。
机器学习中,以下哪项属于监督学习任务?
A.聚类分析
B.关联规则挖掘
C.分类预测
D.降维处理
答案:C
解析:监督学习需要标签数据,分类(如预测用户是否流失)是典型任务(C正确)。聚类(A)、关联规则(B)、降维(D)属于无监督学习。
二、多项选择题(共10题,每题2分,共20分)
以下属于Spark核心组件的有?
A.SparkCore
B.SparkSQL
C.SparkStreaming
D.SparkMLlib
答案:ABCD
解析:Spark生态包括Core(核心)、SQL(结构化数据处理)、Streaming(流处理)、MLlib(机器学习)和GraphX(图计算),均为核心组件。
Kafka的核心概念包括?
A.Topic(主题)
B.Partition(分区)
C.ConsumerGroup(消费者组)
D.NameNode(名称节点)
答案:ABC
解析:Kafka的核心概念有Topic(消息分类)、Pa
您可能关注的文档
- 网络知识产权保护权.docx
- 职业教育中校企合作的人才培养模式创新.docx
- 职场中个人品牌的构建策略.docx
- 职场人脉构建的有效方法.docx
- 职场性别平等的现状与改进路径.docx
- 职场晋升公平性原则.docx
- 荣誉权侵害责任形式解读.docx
- 著作权维权委托协议.docx
- 试用期考核不合格的解雇条件.docx
- 资格考试中心理咨询师考试的案例分析技巧.docx
- 2026年新疆师范大学辅导员招聘备考题库最新.docx
- 2026年上海立达学院辅导员招聘备考题库最新.docx
- 2025年长城铝业公司职工工学院辅导员招聘备考题库附答案.docx
- 2025年重庆应用技术职业学院辅导员考试笔试真题汇编附答案.docx
- 2025年香港中文大学(深圳)辅导员招聘考试真题汇编最新.docx
- 2025年闽南科技学院辅导员考试笔试真题汇编附答案.docx
- 2025年青岛大学辅导员招聘考试真题汇编附答案.docx
- 2025年长春早期教育职业学院辅导员考试笔试真题汇编最新.docx
- 2026年东北农业大学辅导员招聘备考题库最新.docx
- 2025年陕西学前师范学院辅导员考试笔试题库最新.docx
最近下载
- 孙子兵法__原文与译文.pdf VIP
- 中国智算服务行业市场规模及未来投资方向研究报告.pdf VIP
- 食材原料食品溯源管理.docx VIP
- 【MOOC答案】《通信原理》(北京邮电大学)中国慕课章节作业网课答案.docx VIP
- 汽车起重机液压系统的设计资料.doc VIP
- 2024-2025学年北京昌平区六年级(上)期末语文试卷.pdf
- 中医药事业发展“十三五”规划教案.doc VIP
- 10-2 变电工程质量旁站要点及旁站监理记录模板(高压电缆头耐压试验).docx VIP
- 30题基站工程师岗位常见面试问题含HR问题考察点及参考回答.docx VIP
- 生产与运作分析第七版史蒂文·纳米亚斯习题答案第2章.docx VIP
原创力文档


文档评论(0)