- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据开发工程师
个人信息
姓 名:XXX 性 别:男
电 话:17XXXXXX 邮 箱: XXXp@163.com
工作经验:3年
教育经历
毕业学校:XX大同大学 专业:计算机科学与技术
工作经历
工作经历:XXXXXXX技术有限公司 时间:2016.2—2019.3
技术列表
熟练使用Hadoop 结构体系,以及Hadoop集群搭建和维护,理解HDFS读写流程、MapReduce原理,以及Hadoop的Shuffle机制及优化。
理解Spark任务提交流程以及Spark RDD、Shuffle、广播变量等一系列调优。
熟练使用Flume完成数据的采集、过滤、分类等功能,理解Flume的组成及工作原理。
熟练使用Kafka高低阶API消费数据,理解Kafka的基本组成及其运行机制。会使用Kafka接收相关数据。
熟悉使用Hive进行海量数据查询分析,常用的查询函数,以及自定义函数,熟悉Hive的架构和调优策略。
熟悉Zookeeper的选举机制和监听机制。
熟练使用DataSet和DataFrame算子以及UDF函数处理数据,熟练使用Dstream算子完成实时数据的批次处理。
熟悉Redis的常规操作以及五种数据类型,主从复制,集群搭建,以及Redis的持久化方式。
了解Hbase底层数据存储原理以及Hbase中RowKey的设计。
熟练使用Scala和Java编程,并了解Python编程。
熟练掌握Linux命令,可以使用Shell编写Linux脚本。
了解JVM的运行原理,GC优化策略。
熟练使用GIT、SVN等代码管理工具。
项目经验
项目名称:别样数仓离线分析
项目架构:Flume + Hadoop + Hive+ Spark + Sqoop
开发环境:IDEA + Maven + Git + Scala
项目描述:本项目是为了将分散的操作型数据、埋点数据以及历史数据通过做数据抽取、清理等有系统的分析整理,得到高效率、高质量、高扩展的数据,以方便联机分析处理(OLAP)的进行,分析处理可以分为离线、实时两大部分,离线通过分析当前系统的用户活跃、转化率以及用户行为等一些关键性指标,实现BI报表,起到企业决策分析的作用,对企业的未来趋势做出定量分析和预测。
职责描述:
1、参与数据仓库的建模搭建。
2、负责数据仓库与前台埋点数据以及用户行为日志的数据联调。
3、负责将采集系统获取的页面的点击、下单等一系列用户操作行为日志进行具体分析。
4、负责将数据进行分析并分别存储到ODS、DWD、DWS、ADS四层,不仅减少了极大的重复计算还使数据结构更加清晰。
5、对Spark core、Spark sql性能调用和优化。
技术要点:
1、通过将采集到的前台用户操作日志文件写入到对应的HDFS目录,得到原始数据。
2、通过Hive将采集到HDFS的日志数据导入到数仓ODS层。
3、将ODS层数据存储格式改为Parquet存储,以及压缩算法采用Snappy,以保证在提升查询速度的前提下降低压缩比。
4、使用Spark Sql来对项目中具体的分析指标将ODS层的数据进行轻度汇总并存储到ADS层,根据对应指标得到统计报表,代替原生Hive的执行引擎。
5、通过Sqoop导入用户行为数据,将不会频繁增减且符合指标分析的一些相关字段组合成为一张宽表,达到窥一表知全貌的好处。
6、使用拉链表来解决订单每日增量变化与历史订单表的同步更新。
7、通过对PV的变化趋势和分析其变化原因以及PR的级别标识指导业务流程改进,显著提高了项目的用户访问人数。
8、对一些需要重复计算的数据进行操作缓存,避免重复计算带来的不必要的性能消耗。
9、使用Kryo序列化机制,对需要的序列化的对象进行预注册。
10、使用foreachPartition优化数据操作,避免对数据库多次建立连接,造成性能损失。
项目名称:别样数仓实时分析
项目架构:Kafka + Spark + Redis + Mysql
开发工具:IDEA + Maven + XShell + Sqoop
项目描述:本项目是通过对网站用户查询时发生或者用户购买产生的行为数据进行即时处理分析,达到对数据进行核对、检查、复算、判断的作用,及时反映出来数据的价值和意义。还可针对分析当日交易额等一些指标做可视化大屏。
职责描述:
负责对埋点实时数据进行ETL,并保存到Elasticsearch中。
负责对订单、购物车等模块的埋点数据进行分析。
3、使用Canal对数据库数据进行监控,获取与实时分析维
您可能关注的文档
最近下载
- 涉农专业班级建设方案(班主任能力比赛).pdf VIP
- 人教(2019)A版最新教材高中数学课后习题答案大全.pdf VIP
- colorgate v8快速操作手册中文.pdf VIP
- 第5课 共同保卫伟大祖国 课件中华民族大团结.ppt VIP
- 部编版四年级上册语文第一单元大单元教学设计.docx VIP
- 给水排水工程顶管技术规程CECS_246:2008.pdf VIP
- 2024年信息科技中考考试题库及答案3.pdf VIP
- 《土木工程施工48课时》课程教学大纲.doc VIP
- Unit 3 My week第2课时 Story time(教学课件)英语译林版三起四年级上册(新教材).ppt
- 01企税 答案 V3.8企业所得税年度(A类)网上申报教学版案例01-20211008.xlsx VIP
文档评论(0)