- 0
- 0
- 约8.11千字
- 约 16页
- 2026-05-13 发布于山西
- 举报
2026年华为大数据方向认证全套题库
一、单项选择题
1.大数据处理中,以下哪个组件主要用于实现分布式数据存储,并提供高吞吐量的数据访问能力?
A.HDFS(HadoopDistributedFileSystem)
B.YARN(YetAnotherResourceNegotiator)
C.MapReduce
D.ZooKeeper
答案:A
解析:HDFS是Hadoop的核心组件之一,设计用于在通用硬件上运行,提供高吞吐量的数据访问,适合那些有着超大数据集的应用程序。YARN是资源管理和作业调度框架,MapReduce是分布式计算模型,ZooKeeper是分布式协调服务。
2.在Spark中,以下哪个操作属于“转换”(Transformation)操作?
A.collect()
B.count()
C.map()
D.show()
答案:C
解析:在Spark中,转换操作是惰性求值的,它们记录对原始RDD/DataFrame/Dataset的转换逻辑,但不会立即执行,只有遇到行动操作时才会触发计算。`map()`是一种典型的转换操作,用于对每个元素应用一个函数。`collect()`,`count()`,`show()`都属于行动(Action)操作,会触发作业的执行。
3.关于数据仓库的维度建模,以下哪种模型以事实表为中心,周围连接多个维度
您可能关注的文档
最近下载
- (共51页PPT)第15课《青春之光》.pptx VIP
- 2024年清华大学强基计划物理试题(附答案).doc VIP
- GB 45673-2025《危险化学品企业安全生产标准化通用规范》之“5.14绩效评估与持续改进”审核检查单(编制-2025A0).pdf VIP
- T∕CHAS 10-4-6-2018 中国医院质量安全管理 第4-6部分:医疗管理 医疗安全(不良)事件管理(可复制版).pdf
- 浅谈农村电商物流配送问题及对策研究——以京东为例开题)_20250226_114310.pptx VIP
- 广东省深圳市深大附中创新中学2025年中考数学三模试卷(含答案).pdf VIP
- 学法学法减分题库及答案.docx VIP
- 基于STM32的智能风扇系统设计与实现.docx VIP
- 钱谦益《投笔集》用典的叙事意义研究.doc VIP
- 天华煤矿采空区灾害治理施工组织设计.doc
原创力文档

文档评论(0)