大数据研发工程师3.0简历模板.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据开发工程师 姓名:XXX 年龄:25 毕业院校:XX大学 手机:1XXXXXXXXXX E-Mail:XXXXXXXXXX@163.com 籍贯:陕西西安 工作经历: XXXXXX信息技术有限公司 大数据开发工程师 2016年1月----2019年2月 工作技能: 1、熟练掌握HDFS,Yarn,MapReduce 工作机制与运行原理,MR程序调优,Hadoop集群搭建,高可用部署。 2、熟悉Zookeeper集群搭建与Zookeeper内部选举机制。 3、熟练掌握Hive数仓工具,熟练应用HQL操作数据仓库,自定义过UDF函数,熟练窗口函数,用户定义表函数explode与其他类型函数,理解HQL运行流程与相应优化措施 4、熟练使用Flume日志采集工具,熟悉Flume的运行原理。有基于多层次Flume结构经验,自定义过Flume拦截器。 5、熟练掌握Kafka工作流程,搭建过Kafka集群,熟悉Kafka的高级与低级API的差异,与Spark Streaming对接时方案的选取。 6、了解HBase基于分布式,高并发的列式存储。理解Hbase底层数据存储原理与HRegione热点问题。 7、熟悉Sqoop数据的导入导出,并结合Azkaban任务调度工具使用。 8、熟悉Scala编程语言,熟悉Scala的隐式转换,熟悉模式匹配和样例类的使用,以及常用算子的使用。 9、熟悉Spark的Transformation算子与Action算子,熟悉Spark的架构与提交流程,自定义过Spark Sql。的UDF函数,熟悉Spark Streaming 对流的按批次处理,熟悉DStream的有状态与无状态的转换。 10、熟悉Java编程语言,熟悉JVM内存结构,了解JVM调优。 11、熟悉 MySql、Redies、ElasticSearch的使用,熟悉SQL。 12、熟悉Linux操作系统,熟练Linux常用命令,编写过shell脚本,使用过Crontab。 项目经验: 项目名称:开卷有益业务平台离线数仓 开发环境:IDEA+JDK1.8+Scala2.12.1+Maven 软件架构: Hadoop+Hive+Scala+SparkCore+SparkSql 项目描述:针对公司APP日志采集系统收集的数据与公司APP业务数据库收集的数据落盘到Hive后,对数据做分层处理。对原始数据层的数据做降维作,然后在数据服务层形成跨主题宽表。最后依据数据仓库中的数据,形成各项数据报表辅助公司APP现状,指导决策,为产品的迭代提供支持。 负责内容: 对数据采集到Hive的原始数据做数据清洗(去空,脏数据,操过极限值范围的数据)。 参与讨论数据仓库的分层设计与维度设计。 参与需求分析与讨论,处理运营部门提出的业务需求。如每日,每周,每月活跃用户,用户留存,用户复购, TopN排名。 使用Sqoop把Hive中提取的数据导入到公司BI系统,用于业务部门分析。 技术要点: 1、对ODS层原始数据做数据清洗,并更改压缩格式与存储格式到DWD,减少I/O,提高数据压缩效果。 2、在数据服务层成形跨主题的宽表,存储大量数据,提高查询效率。 3、针对不同的表数据信息使用全量同步策略与增量同步策略 3、根据运营部门提出的需求形成面向实现的数据表数据,并通过Sqoop把数据导入公司BI系统。 4、针对数据倾斜问题,若小文件过多则则设置相应参数合并小文件,若文件过大,任务逻辑复杂,考虑增加Map数 项目名称:开卷有益实时数仓系统 开发环境:IDEA+JDK1.8+Scala2.12.1+Maven 软件架构:Nginx+Tomact+Zookeeper+Kafka+Spark+Scala+Redies+Easticsearch 项目描述:公司APP应用通过埋点方式收集用户信息,并把收集的日志信息发送到统计业务服务器(Nginx),然后Nginx服务器轮询日志数据并把日志数据发送到日志服务器(Tomcat),日志服务器会把不同的日志类型数据发送给kafka集群的不同的topic中。最后通过

文档评论(0)

文廊 + 关注
实名认证
文档贡献者

一名基层工作者的社会实践,与同行者分享。

1亿VIP精品文档

相关文档