- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据开发面试题及答案(企业实战版)
一、基础核心题(Hadoop/Spark)
1.问题:HDFS的NameNode和DataNode作用是什么?实际部署中怎么避免NameNode单点故障?
答案:NameNode是HDFS的“大脑”,负责管理文件元数据(文件名、路径、块分布、权限),不存实际数据;DataNode是“存储节点”,负责存储数据块,同时响应NameNode的读写指令、汇报块状态。
实际部署避免单点故障:①主从架构:部署1个ActiveNameNode+1个StandbyNameNode(共享JournalNode集群同步元数据);②本地备份:ActiveNameNode定期将edits日志和fsimage备份到本地磁盘+远程备份;③监控告警:通过Zabbix或Prometheus监控NameNode状态,Standby异常时自动切换(依赖ZooKeeper)。
2.问题:Spark的RDD和DataFrame区别?什么时候用DataFrame而不是RDD?
答案:RDD是弹性分布式数据集,是Spark的底层抽象,以Java/Scala对象形式存储,支持细粒度的算子操作(如map、filter),但无schema约束、不支持优化;DataFrame是带schema的分布式数据集(类似数据库表),存储的是Row对象,内置Catalyst优化器,能自动优化执行计划(如谓词下推、列裁剪)。
优先用DataFrame的场景:①数据有明确结构(如JSON、CSV、数据库表);②需执行复杂查询(join、groupby、聚合),追求性能优化;③处理大规模数据(DataFrame序列化效率比RDD高,占用内存少);RDD适合:①无结构化数据处理(如文本清洗);②需自定义复杂逻辑(如自定义对象转换)。
3.问题:MapReduce的shuffle过程是什么?怎么优化shuffle性能?
答案:shuffle是MapReduce的核心,本质是“将Map输出按key重新分区、排序后分发到Reduce”的过程,步骤:①Map端:数据处理后写入环形缓冲区,满了溢写到磁盘(溢写前排序、合并小文件);②合并阶段:将多个溢写文件合并成大文件(保持排序);③Reduce端:通过HTTP拉取对应分区的数据,再次合并排序,最后交给Reduce处理。
优化方案:①增大环形缓冲区大小(默认100MB,可调整为200-500MB,减少溢写次数);②启用压缩(对溢写文件和最终输出压缩,用Snappy或LZO格式,平衡压缩速度和比率);③调整分区数(默认和Reduce数一致,建议设为Reduce数的1.5-2倍,避免数据倾斜);④避免大量小文件(提前合并输入文件,减少Map任务数)。
二、数据建模与数仓题
4.问题:什么是维度建模?星型模型和雪花模型的区别?实际数仓中更常用哪种?
答案:维度建模是面向业务的建模方法,核心是“以事实表为中心,围绕维度表组织数据”,目的是简化查询、提高分析效率。
星型模型:事实表(存储业务指标,如订单金额、销量)直接关联所有维度表(如用户、商品、时间),维度表不冗余、不关联其他维度表,结构简单;
雪花模型:维度表会进一步拆分(如“地址维度表”拆分为“省份表”“城市表”“区县表”),维度表之间有层级关联,数据冗余少但查询时需多表join;
实际数仓常用星型模型:原因是查询效率高(减少join次数),维护成本低,适合大数据场景下的快速分析;雪花模型仅在数据冗余要求极高(如存储成本敏感)时使用,但会牺牲查询性能。
5.问题:数仓分层(ODS、DWD、DWS、ADS)的作用是什么?各层数据怎么设计?
答案:数仓分层的核心是“解耦、复用、优化性能”,避免直接操作原始数据,各层设计:
ODS层(操作数据存储层):存储原始数据(如日志、数据库同步数据),不做清洗,仅保留原始格式(如JSON日志、MySQL全量/增量同步数据),目的是还原数据源,支持数据回溯;
DWD层(数据明细层):对ODS层数据清洗(去重、补缺失值、格式转换)、脱敏(如手机号脱敏)、拆分(如将复杂字段拆分为单独字段),产出明细数据(如订单明细、用户行为明细),是数仓的基础;
DWS层(数据汇总层):按业务主题汇总(如用户、商品、订单),计算轻度聚合指标(如用户日活跃、商品周销量),目的是复用汇总结果,减少下游重复计算;
ADS层(应用数据层):面向具体业务场景(如报表、dashboar
您可能关注的文档
- 大班拼音综合测试题.docx
- 大班期末综合能力测试题.docx
- 大班期末综合能力测试题及答案.docx
- 大班上学期综合素质测评卷.docx
- 大班数学趣味闯关题.docx
- 大班下学期期末综合测试卷.docx
- 大班语文综合测试题.docx
- 大班综合能力测试题及答案.docx
- 大队委面试题目及参考答案.docx
- 大话手游科举殿试题库及答案(实战版).docx
- 浙江省温州市浙南名校联盟2025-2026学年高一上学期期中联考数学试题含解析.docx
- 26高考数学提分秘诀重难点34圆锥曲线中的定点、定值、定直线问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点35概率与统计的综合问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点31圆锥曲线中的切线与切点弦问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点30圆锥曲线中的弦长问题与长度和、差、商、积问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点29巧解圆锥曲线的离心率问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点28直线与圆的综合(举一反三专项训练)(全国通用)(含解析).docx
- 寡核苷酸药物重复给药毒性研究技术指南.docx
- 重组溶瘤腺病毒生产质量管理标准.docx
- 26高考数学提分秘诀重难点27直线与圆中常考的最值与范围问题(举一反三专项训练)(全国通用)(含解析).docx
最近下载
- 我是铁杆中医.doc VIP
- 一种西他列汀中间体吡嗪盐酸盐的制备方法.pdf VIP
- 第一章-新能源材料与器件导论绪论.ppt VIP
- 2025中远海运重工有限公司招聘166人笔试历年参考题库附带答案详解.docx
- 最新人教版八年级上册英语各单元基础知识单词、短语、句子默写版可直接打印(最全)(2).doc VIP
- 工程建设项目绿色建造水平评价标准 TZSQX 017-2022 知识培训.pptx
- CJJT8-2011 城市测量规范.pdf VIP
- 巨人通力GPN65KM(GDL)-YH无机房_电气原理图纸51151826D01U-2023-8.pdf
- 潦河渡槽充水试验总结报告(初稿).doc VIP
- 储能技术 第7章 飞轮、超导与超级电容器.ppt VIP
原创力文档


文档评论(0)