- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
XXX
年 龄:23
邮 箱:XXXXXr@163.com
大连理工大学|本科|男
手 机:1XXXXXXX
大数据开发工程师 期望薪资:面议
应聘职位
熟练使用Java,Scala,
熟练使用Java,Scala,Python等编程语言。
熟悉Shell脚本语言,经常在Linux环境下编写各类脚本。
熟练Hadoop相关知识,能够熟练搭建Hadoop分布式集群。
熟练使用Hive与Mysql等关系型数据库,了解Hive优化相关知识。
熟练使用HBase存储数据,了解rowKey设计等HBase优化方法。
熟练使用Redis数据库存储数据,能够将Redis数据库应用到业务中。
熟练使用ElasticSearch存储数据,了解ElasticSearch索引建立等知识,熟练使用Kibana调度ElasticSearch数据库。
熟练使用Sqoop,Kafka,Flume等数据传输工具。
了解Zookeeper相关知识,能够熟练使用Zookeeper。
熟练使用Spark及其组件,经常使用Spark对数据进行统计与分析。
熟练使用Azkaban定时调度任务。
了解Oozie相关知识,熟练使用Oozie定时调度任务。
个人能力
2016.7至2019.2就职于北京香哈网络股份有限公司,职位为大数据开发工程师。
就职经历
全国大学英语六级考试(CET-6) 469分
个人证书
项目一:香哈离线数据仓库搭建与基本指标获取项目简述:
项目一:香哈离线数据仓库搭建与基本指标获取
项目简述:针对用户登录、点击、浏览等行为以及自营电商业务每日产生的离线数据,进行数据清洗、分类以及统计。离线数据导入Hive数据仓库的过程涉及到了Flume,Sqoop的使用与调优,数据统计过程中涉及到了维度退化,宽表与拉链表的构建与调整。最终实现了对用户留存率,转化率等重要指标的获取。
项目架构: Flume;Sqoop;Mysql;Hdfs;Hive;Spark;Azkaban;
主要负责:
1、 根据日志数据对应用日活,周活,月活数据进行统计,统计七日内日活变化情况。
2、 分析用户日活数据,对用户留存、沉默、唤醒、流失与召回情况进行统计。
3、 统计每日上传作品的名称,类别等明细信息。
项目经历
4、
4、 获取自营电商每日订单流水,对订单信息进行统计。
5、 建立用户行为明细表,统计用户的每日浏览、收藏等行为信息,并统计用户活跃度。
6、 建立用户行为宽表,统计用户的每日浏览、收藏等行为信息。
7、 建立基于行为数据与用户基本信息的用户画像。
8、 计算每日普通用户升级为会员用户的转化率。
技术要点:
1、 使用Java语言编写Flume拦截器,清洗日志数据中的不完整数据与时间错误数据,并分流日志数据到不同的Channel。
2、 使用Sqoop传输自营电商业务数据,保存到hdfs。
3、 使用Java语言编写UDF函数,对日志公共字段进行解析,编写UDTF函数,解析日志具体事件字段。
4、 通过Spark-sql保存解析后的日志数据到数据仓库。
5、 使用Spark RDD操作对解析后日志数据进行脱敏。
6、 建立用户行为明细表(每日全量),根据用户对作品行为数据,使用Spark-sql统计用户偏好指标,结合用户所在地区等信息建立用户画像。
7、 使用Azkaban调度系统,定时执行任务。
项目二:香哈美食推荐系统
项目简述:采用每日用户行为明细数据作为原始数据集,将用户对作品的行为转化为评分数据,根据作品的每日评分与评分有效期统计作品的综合评分。通过Spark-MLlib计算基于Item-CF的作品推荐列表。
项目架构:MongoDB;ElasticSearch;Redis,Spark;Azkaban
主要负责:
1、 通过Spark-sql读取每日用户行为明细数据,计算用户评分数据以及作品每日平均评分数据。
2、 统计评分有效期内作品的每日平均评分,构建用户与作品的评分矩阵。
3、 通过Item-CF计算得到每日推荐作品列表。
4、 根据作品形式将推荐列表存入MongoDB。
5、 使用Azkaban定时调度业务系统。
技术要点:
1、 使用Scala语言编写用户行为明细数据的解析工具类,并建立与业务指标相关的样例类。
2、 使用Spark-sql以及Spark RDD操作对解析后的用户行为明细数据进行统计,得到评分数据。
3、 划分评分数据的训练集与测试集。
4、 通过Spark-MLlib的ALS算法得到用户对产品的预测评分矩阵。
5、 根据用户评分矩阵计算产品间的相似度矩阵,并存储到HBase。
6、 根据作品的余弦相似度以及用户评分计算针对用户的每日推荐列表,保存入ElasticSearch以及M
您可能关注的文档
最近下载
- 检查与检验结果审核制度.docx VIP
- 2025年公路水运交通安全员C证从业资格证考试题库(附含答案).docx VIP
- 《义务教育英语课程标准(2022年版)》.pdf VIP
- 《全国统一电力市场发展规划蓝皮书》.pdf VIP
- 小说复习-情节之叙述视角与叙述人称.pptx VIP
- 山东省聊城市2024-2025学年九年级上学期9月月考数学检测试题(附答案).docx
- 2024年山东省中考语文试卷.pdf VIP
- 《系统需求分析与设计》课件.ppt VIP
- 2024年公路水运交通安全员C证从业资格证考试题库(附含答案).docx VIP
- 苏教版小学《科学》四年级上册全套教学课件(共387页PPT).pptx
文档评论(0)