毕业生生产实习报告.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

毕业生生产实习报告

毕业生生产实习报告

一、实习单位及岗位介绍

本次实习单位为XX科技有限公司(以下简称“XX科技”),成立于2015年,总部位于XX市高新技术产业开发区,是一家专注于企业级大数据与人工智能解决方案的国家高新技术企业。公司核心业务涵盖数据中台建设、智能算法研发、行业数字化转型咨询,服务客户覆盖金融、制造、零售、政务等领域,员工规模500余人,其中技术研发团队占比70%,拥有专利32项、软件著作权58项。

实习岗位为“数据开发工程师实习生”,隶属于公司核心研发部“数据中台团队”。该团队主要负责企业级数据中台架构设计、数据管道开发、数据治理体系建设及数据产品迭代,支撑公司内部业务系统及外部客户的数据需求。实习周期为2023年7月1日至2023年9月30日,共计13周,主要参与“XX零售行业数据中台V3.0”项目的开发与优化工作。

二、实习内容与过程

(一)第一阶段:技术栈学习与环境搭建(第1-2周)

实习初期,在导师指导下完成入职培训与技术栈学习。XX科技数据中台技术栈以开源组件为核心,结合自研工具构建,主要涉及:

-数据存储:MySQL(业务数据存储)、HDFS(大数据分布式存储)、ClickHouse(实时分析数据库);

-数据处理:Flink(实时计算)、Spark(离线批处理)、DataX(数据同步);

-数据治理:ApacheAtlas(元数据管理)、ApacheGriffin(数据质量监控)、自研数据血缘工具;

-开发工具:IntelliJIDEA、Git、Jenkins(CI/CD)、Docker(容器化部署)。

学习期间完成环境配置:搭建本地开发集群(包含1个Master节点、2个Worker节点),部署Hadoop3.2.1、Flink1.13.0、Spark3.2.0等组件,并通过公司内部DevOps平台获取项目代码库(GitLab地址:/retail-data-platform)。此阶段输出《技术栈学习笔记》1份,累计记录组件配置要点、常见问题解决方案及API使用示例共35条。

(二)第二阶段:数据管道模块开发(第3-8周)

进入项目实战阶段,参与“XX零售数据中台”数据管道模块开发,主要负责“订单数据实时同步子模块”与“商品维度数据整合子模块”的需求分析与代码实现。

1.订单数据实时同步子模块

需求背景:零售客户核心业务系统(基于Oracle)每日产生约50万条订单数据,需实时同步至数据中台,供下游销售分析、库存预警等场景使用,要求端到端延迟≤3秒,数据准确率99.99%。

技术方案:采用“DataX(全量同步)+FlinkCDC(增量同步)”双通道架构。全量同步每日凌晨2点执行,增量同步通过FlinkCDC捕获OracleRedoLog实现实时数据接入。

开发任务:

-设计DataX同步任务配置文件,支持Oracle到HDFS的CSV格式数据迁移,配置并发数为8,单批次数据量10万条,全量同步耗时约45分钟(较原方案提升30%);

-开发FlinkCDC作业,使用DebeziumConnector捕获Oracle订单表(order_main)变更数据,通过Kafka(3个分区,副本数2)作为缓冲队列,最终写入ClickHouse的order_realtime表;

-编写自定义数据清洗UDF(用户定义函数),处理订单数据中的异常字段(如订单金额为负、商品ID为空),过滤异常数据比例约0.02%,确保数据质量。

成果数据:模块上线后,订单数据实时同步延迟稳定在1.5-2.5秒,数据准确率达99.995%,支撑下游“实时销售大屏”日均处理订单数据150万条,峰值QPS(每秒查询率)达500。

2.商品维度数据整合子模块

需求背景:零售客户商品数据分散在ERP系统(商品基础信息)、WMS系统(库存数据)、OMS系统(价格数据)等5个业务系统,需整合为统一商品维度表,供推荐算法、商品分析等场景使用,要求字段覆盖度≥95%,数据更新频率每日1次。

技术方案:基于SparkSQL离线批处理,通过DataX同步各源系统数据至HDFS临时目录,使用Spark进行数据关联、去重、补全,最终写入MySQL商品维度表(dim_product)。

开发任务:

-设计数据整合SQL脚本,关联5个源系统的12张表(如erp_product_info、wms_inventory、oms_price_info),定义商品主键(product_id)为关联

文档评论(0)

唐纯宣 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档