- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据开发工程师
姓名:XXX 年龄:25
毕业院校:XX大学 手机:1XXXXXXXXXX
E-Mail:XXXXXXXXXX@163.com 籍贯:陕西西安
工作经历:
XXXXXX信息技术有限公司
大数据开发工程师 2016年1月----2019年2月
工作技能:
1、熟练掌握HDFS,Yarn,MapReduce 工作机制与运行原理,MR程序调优,Hadoop集群搭建,高可用部署。
2、熟悉Zookeeper集群搭建与Zookeeper内部选举机制。
3、熟练掌握Hive数仓工具,熟练应用HQL操作数据仓库,自定义过UDF函数,熟练窗口函数,用户定义表函数explode与其他类型函数,理解HQL运行流程与相应优化措施
4、熟练使用Flume日志采集工具,熟悉Flume的运行原理。有基于多层次Flume结构经验,自定义过Flume拦截器。
5、熟练掌握Kafka工作流程,搭建过Kafka集群,熟悉Kafka的高级与低级API的差异,与Spark Streaming对接时方案的选取。
6、了解HBase基于分布式,高并发的列式存储。理解Hbase底层数据存储原理与HRegione热点问题。
7、熟悉Sqoop数据的导入导出,并结合Azkaban任务调度工具使用。
8、熟悉Scala编程语言,熟悉Scala的隐式转换,熟悉模式匹配和样例类的使用,以及常用算子的使用。
9、熟悉Spark的Transformation算子与Action算子,熟悉Spark的架构与提交流程,自定义过Spark Sql。的UDF函数,熟悉Spark Streaming 对流的按批次处理,熟悉DStream的有状态与无状态的转换。
10、熟悉Java编程语言,熟悉JVM内存结构,了解JVM调优。
11、熟悉 MySql、Redies、ElasticSearch的使用,熟悉SQL。
12、熟悉Linux操作系统,熟练Linux常用命令,编写过shell脚本,使用过Crontab。
项目经验:
项目名称:开卷有益业务平台离线数仓
开发环境:IDEA+JDK1.8+Scala2.12.1+Maven
软件架构: Hadoop+Hive+Scala+SparkCore+SparkSql
项目描述:针对公司APP日志采集系统收集的数据与公司APP业务数据库收集的数据落盘到Hive后,对数据做分层处理。对原始数据层的数据做降维作,然后在数据服务层形成跨主题宽表。最后依据数据仓库中的数据,形成各项数据报表辅助公司APP现状,指导决策,为产品的迭代提供支持。
负责内容:
对数据采集到Hive的原始数据做数据清洗(去空,脏数据,操过极限值范围的数据)。
参与讨论数据仓库的分层设计与维度设计。
参与需求分析与讨论,处理运营部门提出的业务需求。如每日,每周,每月活跃用户,用户留存,用户复购, TopN排名。
使用Sqoop把Hive中提取的数据导入到公司BI系统,用于业务部门分析。
技术要点:
1、对ODS层原始数据做数据清洗,并更改压缩格式与存储格式到DWD,减少I/O,提高数据压缩效果。
2、在数据服务层成形跨主题的宽表,存储大量数据,提高查询效率。
3、针对不同的表数据信息使用全量同步策略与增量同步策略
3、根据运营部门提出的需求形成面向实现的数据表数据,并通过Sqoop把数据导入公司BI系统。
4、针对数据倾斜问题,若小文件过多则则设置相应参数合并小文件,若文件过大,任务逻辑复杂,考虑增加Map数
项目名称:开卷有益实时数仓系统
开发环境:IDEA+JDK1.8+Scala2.12.1+Maven
软件架构:Nginx+Tomact+Zookeeper+Kafka+Spark+Scala+Redies+Easticsearch
项目描述:公司APP应用通过埋点方式收集用户信息,并把收集的日志信息发送到统计业务服务器(Nginx),然后Nginx服务器轮询日志数据并把日志数据发送到日志服务器(Tomcat),日志服务器会把不同的日志类型数据发送给kafka集群的不同的topic中。最后通过
文档评论(0)