- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
XX大数据研发工程师简历
姓 名:XX
性 别:男
毕业院校:河南大学(一本)
年 龄:25
目前城市:北京
联系电话:XXXXXXXXX
E-mail:XXXXX@163.com
应聘方向
工作性质
全职
应聘职位:
大数据研发工程师
求职地点:
北京
薪资要求:
面议
工作经历
单位名称
XXXX电子商务有限公司
职位名称
大数据研发工程师
工作时间
2016.5-2019.2
职业技能
熟练掌握Hadoop Hdfs存储流程,Yarn调度机制,MapReduce工作原理,高可用部署,mr运行性能调优。
熟练掌握hive数仓结构,熟练HQL开窗及UDTF函数应用,熟悉HQL优化执行手段。、
熟练掌握flume,有使用多层Flume搭建高可用和容灾架构的经验。
熟练使用Sqoop将数据在Hdfs和关系型数据库之间转移。
熟练使用Kafka实现分布式,大吞吐集群,熟悉Kafka高低阶API差别,掌握Kafka一致性机制以及一次性语意。
熟练使用SparkCore,SparkSql,SparkStreaming编码,涉及过SparkMLlib编程,熟悉Spark任务提交执行流程及内存调优。
熟练使用Scala,Java8进行业务代码编写。
熟练使用Linux操作系统,能够编写Shell脚本。
熟练使用crontab,Azkaban进行任务调度。
理解Hbase数据存储原理,有处理过HRegion热点问题,Rowkey设计等开发设计经验。
熟练使用Mysql数据库操作,以及使用Redis做缓存处理。
了解Elasticsearch搜索引擎及MongoDB数据库基本操作。
项目经历
项目一:猎趣电商分析系统
软件架构:
Nginx+Flume+Zookeeper+Spark+Hadoop+Spingboot+Hive+Mysql
开发环境:IDEA+JDK1.8+Maven+Git
项目描述:该项目通过对电商网站的用户行为数据进行埋点,根据平台统计数据,辅助PM和后端人员分析现有的产品情况,并根据用户行为数据分析的结果来改善展示以及调整公司的战略和业务。
责任描述:
参与项目需求分析,负责相关模块搭建。
采用双层Flume架构构建日志采集模块。
通过对用户行为数据分析,统计相关指标。
活跃用户统计:以设备为单位作为单用户标识,通过脚本每日从dwd层中统计以前日为基准的日活,周活,月活的设备明细存入dws层。然后通过脚本每日计算日活,周活,月活的设备总数进入ads层存储。
用户沉默流失统计:通过对dws层用户行为宽表分析,计算出7日无点击行为的用户作为沉默用户,30日内无点击行为的用户作为流失用户,存入ads层。
技术要点:
为了方便对数据的管理与统计,将数据仓库分为ods,dwd,dws,ads四层。
通过Crontab每日运行Shell脚本将hdfs中采集的数据读入Hive,进入ods层。
每日从ods层读取相关业务数据进行简单的ETL清洗并存入dwd层。
根据表结构,数据量选用不同的数据同步策略,如对于每日订单明细,因考虑到数据量较大以及后续不会变化,可以作成每日增量表,对于用户表,考虑到用户信息可能改变,可以作成用户信息拉链表,以便查询具体某时间点的用户信息。
为实现数仓的数据冗余,方便进行查询,将维度表进行退化,贴近星型模型。
使用SparkRDD算子完成一些较难用HQL直接处理的业务,如计算页面转化率。
项目二:猎趣app数据统计平台
软件架构:
Flume+Kafka+Zookeeper+Spark+MySQL+ElasticSearch+Springboot+Redis+Echarts
开发环境:IDEA+JDK1.8+Maven+Git+Scala
项目描述: 该项目通过对用户明细数据进行处理,计算用户分时活跃和新增以及当日交易额和订单数的分时趋势,最终由前端使用Echarts制成饼状图展示给用户。对广告点击量采用流式处理实时分析,统计各区域热门广告,计算近一小时内广告点击量趋势。
责任描述:
参与项目需求分析,负责相关模块搭建。
参与SparkStreaming实时计算模块,统计需求处理。
参与Spark系统调优。
技术要点:
构建Kafka集群对Flume数据收容,对接SparkStreaming进行消费,使用Kafka低阶API,手动对Offset进行维护并保存至Zookeeper,采用Exactly One精确一次性语意实现数据传输的可靠性及速率保证。
将活跃用户数据先存放入Redis中进行缓存,并在SparkStreaming中对每条数据进行过滤,去除Redis中已有的用户。
将最终结果放入ElasticSearch,保证容量的前提下,且能保证不错的交互性,并且可以使用倒排索引
文档评论(0)