大数据研发工程师3.0简历模板.docVIP

下载本文档

4
0
约4.11千字
约 4页
2022-01-17 发布于陕西
举报
版权申诉

大数据研发工程师3.0简历模板.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据开发工程师姓名：XXX 年龄：25 毕业院校：XX大学手机：1XXXXXXXXXX E-Mail:XXXXXXXXXX@163.com 籍贯：陕西西安工作经历： XXXXXX信息技术有限公司大数据开发工程师 2016年1月----2019年2月工作技能： 1、熟练掌握HDFS,Yarn,MapReduce 工作机制与运行原理，MR程序调优，Hadoop集群搭建，高可用部署。 2、熟悉Zookeeper集群搭建与Zookeeper内部选举机制。 3、熟练掌握Hive数仓工具，熟练应用HQL操作数据仓库，自定义过UDF函数，熟练窗口函数，用户定义表函数explode与其他类型函数，理解HQL运行流程与相应优化措施 4、熟练使用Flume日志采集工具，熟悉Flume的运行原理。有基于多层次Flume结构经验，自定义过Flume拦截器。 5、熟练掌握Kafka工作流程，搭建过Kafka集群，熟悉Kafka的高级与低级API的差异，与Spark Streaming对接时方案的选取。 6、了解HBase基于分布式，高并发的列式存储。理解Hbase底层数据存储原理与HRegione热点问题。 7、熟悉Sqoop数据的导入导出，并结合Azkaban任务调度工具使用。 8、熟悉Scala编程语言，熟悉Scala的隐式转换，熟悉模式匹配和样例类的使用，以及常用算子的使用。 9、熟悉Spark的Transformation算子与Action算子，熟悉Spark的架构与提交流程，自定义过Spark Sql。的UDF函数，熟悉Spark Streaming 对流的按批次处理，熟悉DStream的有状态与无状态的转换。 10、熟悉Java编程语言，熟悉JVM内存结构，了解JVM调优。 11、熟悉 MySql、Redies、ElasticSearch的使用，熟悉SQL。 12、熟悉Linux操作系统，熟练Linux常用命令，编写过shell脚本，使用过Crontab。项目经验：项目名称：开卷有益业务平台离线数仓开发环境:IDEA+JDK1.8+Scala2.12.1+Maven 软件架构: Hadoop+Hive+Scala+SparkCore+SparkSql 项目描述：针对公司APP日志采集系统收集的数据与公司APP业务数据库收集的数据落盘到Hive后，对数据做分层处理。对原始数据层的数据做降维作，然后在数据服务层形成跨主题宽表。最后依据数据仓库中的数据，形成各项数据报表辅助公司APP现状，指导决策，为产品的迭代提供支持。负责内容：对数据采集到Hive的原始数据做数据清洗(去空，脏数据，操过极限值范围的数据)。参与讨论数据仓库的分层设计与维度设计。参与需求分析与讨论，处理运营部门提出的业务需求。如每日，每周，每月活跃用户，用户留存，用户复购， TopN排名。使用Sqoop把Hive中提取的数据导入到公司BI系统，用于业务部门分析。技术要点： 1、对ODS层原始数据做数据清洗，并更改压缩格式与存储格式到DWD，减少I/O，提高数据压缩效果。 2、在数据服务层成形跨主题的宽表，存储大量数据，提高查询效率。 3、针对不同的表数据信息使用全量同步策略与增量同步策略 3、根据运营部门提出的需求形成面向实现的数据表数据，并通过Sqoop把数据导入公司BI系统。 4、针对数据倾斜问题，若小文件过多则则设置相应参数合并小文件，若文件过大，任务逻辑复杂，考虑增加Map数项目名称：开卷有益实时数仓系统开发环境:IDEA+JDK1.8+Scala2.12.1+Maven 软件架构:Nginx+Tomact+Zookeeper+Kafka+Spark+Scala+Redies+Easticsearch 项目描述：公司APP应用通过埋点方式收集用户信息,并把收集的日志信息发送到统计业务服务器(Nginx),然后Nginx服务器轮询日志数据并把日志数据发送到日志服务器(Tomcat),日志服务器会把不同的日志类型数据发送给kafka集群的不同的topic中。最后通过