参观实习心得体会(精选).docxVIP

  • 2
  • 0
  • 约4.06千字
  • 约 7页
  • 2026-01-29 发布于四川
  • 举报

参观实习心得体会(精选)

参观实习心得体会

一、实习背景与目的

2023年7月10日至8月20日,我有幸在深蓝科技有限公司(以下简称深蓝科技)完成了为期6周的参观实习。深蓝科技是一家专注于人工智能与大数据技术研发的高新技术企业,其智能推荐系统、自然语言处理等技术在国内处于领先地位。作为一名计算机科学与技术专业的学生,我此次实习的主要目的是将课堂上学到的理论知识与实际工程实践相结合,深入了解AI技术在企业级应用中的开发流程,提升数据处理、模型训练与工程部署的综合能力,同时明确未来职业发展方向。

二、实习内容与过程

(一)第一周:环境搭建与技术栈熟悉

实习首周,我的主要任务是熟悉公司的技术环境与开发框架。在导师的指导下,我完成了以下工作:

1.开发环境搭建:配置了基于Ubuntu20.04的AI开发环境,安装了CUDA11.3、cuDNN8.2、Python3.8等基础软件,并部署了TensorFlow2.8.0和PyTorch1.11.0深度学习框架。通过基准测试(ResNet-50训练任务),确认GPU(NVIDIARTX3090)利用率达到95%以上,环境配置符合开发要求。

2.技术栈学习:系统学习了公司内部使用的AI开发工具链,包括数据处理工具(Pandas1.4.0、Spark3.2.0)、版本控制工具(Git+GitLab)、模型管理平台(MLflow1.25.0)以及CI/CD流水线(Jenkins+Docker)。通过完成IMDB电影评论情感分类小任务,初步掌握了文本数据预处理、词向量嵌入(Word2Vec)和LSTM模型训练的基本流程,最终模型在测试集上的准确率达到85.3%,较基线模型(朴素贝叶斯)提升了12.7个百分点。

(二)第二周:数据预处理与特征工程

第二周,我正式加入智能推荐系统项目组,负责用户行为数据的预处理与特征工程工作。该项目旨在通过AI技术优化电商平台的产品推荐策略,提升用户点击率与转化率。

1.数据清洗:处理了2023年1月至6月的10万条用户行为数据,包括点击、浏览、收藏、购买等行为记录。数据清洗过程中,我发现以下问题并进行了处理:

-重复数据:通过用户ID、行为类型、时间戳三字段联合去重,剔除重复数据5123条,占比5.12%;

-缺失值:用户年龄字段缺失率达18.7%,采用按行为类型分箱的中位数填充(如购买行为用户年龄中位数32岁,点击行为用户年龄中位数28岁);

-异常值:使用IQR(四分位距)方法检测异常值,发现单日点击次数字段存在23条极端值(1000次),经核实为爬虫行为,予以剔除。

2.特征工程:基于清洗后的数据,提取了以下特征:

-时间特征:提取行为发生的小时、星期几、是否为周末等特征,分析发现用户在20:00-22:00点击率最高(较平均值提升35%);

-行为特征:计算用户7天内的点击率(CTR)、转化率(CVR)、收藏-点击比等12个行为指标,其中高转化率用户(CVR5%)的后续购买概率是普通用户的3.2倍;

-用户画像特征:基于用户历史行为,使用K-Means算法(K=8)对用户进行分群,识别出价格敏感型品质追求型等典型用户群体,各群体特征差异显著(如价格敏感型用户对折扣商品的点击率是原价的2.8倍)。

3.特征降维:原始特征维度达53维,使用PCA降维至20维,累计方差贡献率达95.2%,特征处理后的数据用于模型训练,基线模型(逻辑回归)准确率从68%提升至78%,验证了特征工程的有效性。

(三)第三周:模型训练与调优

第三周,我参与了推荐系统核心模型的训练与调优工作,重点对比了传统机器学习模型与深度学习模型的性能表现。

1.模型选择与训练:

-XGBoost模型:基于处理后的特征数据,使用XGBoost1.6.0进行训练,初始参数设置:学习率0.1,最大深度6,子采样率0.8。训练集准确率82.3%,验证集准确率76.5%,存在明显过拟合。

-深度学习模型:设计了一个三层全连接神经网络(DNN),输入层20维,隐藏层128神经元(ReLU激活),输出层10神经元(Softmax)。使用Adam优化器,初始学习率0.001,训练100个epoch,训练集准确率95.1%,验证集准确率82.8%,过拟合问题较XGBoost更严重。

2.模型调优:

-XGBoost调优:采用网格搜索(GridSearch)优化参数,调整学习率(0.1→0.05)、最大深度(6→8)、子采样率(0.8→0.9),并加

文档评论(0)

1亿VIP精品文档

相关文档