网站大量收购独家精品文档,联系QQ:2885784924

2023年大数据面试题归类 .pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2023 年大数据面试题归类 1 hadoop (1 )概念题 1、简述 hadoop 生态组件 2、mapreduce 原理 3、对 mapreduce 的了解 4、hadoop 任务调度,进程调度 5、mapReduce 的过程 6、hadoop 的事务怎么操作 7、请描述 HDFS 存储的机制 8、请详细比较 Hadoop 和传统 SQL 数据库 9、请用 MapReduce 如何实现两张表连接,有哪些方法 10、请描述 MapReduce 架构中 combiner,partition 作用 11、.reduce 的数目为什么默认是一个 12、mapper reducer 数量如何确定 13、一个 datanode 死掉 ,会怎么样?如果这个datanode 之后恢复了,然后会怎 么样 14、说一下 HDFS 的全称 15、设置 map 个数是在哪个配置文件里 16、数据倾斜,什么时候出现 2 次 mapreduce 17、HA 配置过程 (2 )业务题 1、mapreduce 怎么同时读 2 个文件 2、对 mapreduce 进行过哪些调优 3、mapreduce 分析 top 项 4、Map 中的有 3 个 key,1 个 key 是另外两个 key 的和,如何操作 5、编写一个 mapreduce 6、用 mapreduce 简述一下实现最热商品(一天商品访问量)、会员用户活跃度(一天 登陆次数)、会员访问时长(一天内)等多个模块之间各个模块的 top 排序(前 10 个) (3 )算法题 1、给 10 亿条记录,key 好像是 100 个字节,value 是 800 个字节长度,计算出前 100 个 Top 值 2、给定 a、b 两个文件,各存放 50 亿个 url,每个 url 各占 64 字节,内存限制是 4G , 找出 a、b 文件共同的 url 3、在 hadoop 开发工程中主要用过哪些算法 2 HIVE (1 )概念题 1、Hive 有几种交互方式 2、Hive 是怎么从本地装载数据到一个分区表中的 3、说下 Hive 中的 matastore 表 4、hive 中导致数据倾斜的原因有哪些及解决方案 5、谈谈 hive 和 hbase 的区别 6、Hive 中内部表与外部表的区别 7、怎么对 hive 进行优化的 8、Hive 中 sql 语句与 MySql 中 sql 语句的区别 9、ROW_NUMBER 使用的场景,有没有出现什么问题,如何解决问题的 10、UDAF 的编写 11、hive 和 hbase 交互,写 sql 语句分析的具体过程 12、sortby ,orderby ,distinctby 区别 13、hive 哪个版本的 distinct 有 bug,需要改写其他形式 14、如何干预负载均衡 (2 )业务题 1、用 HQL 两种方法简述一下实现最热商品(一天商品访问量)、会员用户活跃度(一 天登陆次数)、会员访问时长(一天内)等多个模块之间各个模块的 top 排序(前 10 个)。 2、UDTF 解析 IP 地址可行?怎么进行解析的 3、手写 sql 批量统计会话时长 4、Hive 语句实现 WordCount 假设数据存放在 Hadoop 下,路径为:/home/hadoop/worddata 里面全是一些单词 5、设定一个场景,解决数据倾斜 注意 :大部分面试要求手写 SQL 语句处理较为复杂的业务 3 HBase (1 )概念题 1、rowkey 的设计 2、HBase 的优化 3、HBase 分区表的了解 4、mapreduce 与 Hbase 集成 5、HBase 读写 6、Hbase 的表设计 7、为什么不直接使用 Hive ,还要从Hbase 读取 8、java api 与 hbase 集成增删改 9、Hbase 的内部机制是啥么 10、HBase 宕机如何处理 11、HBas

文档评论(0)

. + 关注
官方认证
文档贡献者

专注于职业教育考试,学历提升。

版权声明书
用户编号:8032132030000054
认证主体社旗县清显文具店
IP属地河南
统一社会信用代码/组织机构代码
92411327MA45REK87Q

1亿VIP精品文档

相关文档