专科大数据技术专业的毕业设计.pdfVIP

  • 2
  • 0
  • 约2.57千字
  • 约 3页
  • 2026-03-04 发布于河南
  • 举报

专科大数据技术专业的毕业设计

六月的蝉鸣刚爬上树梢,我就抱着一摞笔记坐在了实训室的电脑前。作为

专科大数据技术专业的学生,毕业设计这道坎儿,从开学就被老师念叨了整整

三个学期——“这不是作业,是你们把三年学的Hadoop、Python、SQL串起来

的机会,更是让企业看到你们能力的第一张‘名片’”。现在想想,从选题时

的抓耳挠腮,到代码跑通时的手忙脚乱,再到答辩前夜改PPT改到眼睛发涩,

这场和“专科大数据技术专业的毕业设计”较劲的旅程,远比我想象中更滚

烫。

刚上大三那会儿,班里同学凑在一起聊毕设,总有人说“得选个高大上的

题目,不然显得专科生没水平”。我当时也跟着热血,盯着“机器学习”“深

度学习”这些词翻论文,想着做个“基于神经网络的股票预测系统”。结果拿

给指导老师看,他推了推眼镜问我:“你手头有多少真实的股票数据?每天更

新的数据从哪儿来?模型调参需要的算力,咱们学校机房能支撑吗?”我支支

吾吾答不上来,老师又补了一句:“专科生做毕设,得‘贴着地’做——用学

过的技术解决实际问题,比追热点实在。”

这话点醒了我。我们专业学过数据采集、清洗、分析全流程,平时做实验

用的也是校园里的数据库,不如就围绕“校园数据”做点文章?和几个志同道

合的同学一合计,大家都觉得“学生行为分析”是个好方向——图书馆的刷卡

记录、食堂的消费数据、教室的签到信息,这些数据天天在学校服务器里“躺

着”,可从来没人系统分析过。比如辅导员总说“有些学生突然成绩下滑,可

找不出原因”,要是能通过数据把“晚归频率”“食堂消费时段”“图书馆停

留时长”这些指标串起来,说不定能发现规律。于是,我们的毕设题目定了:

“基于校园数据的学生行为分析系统设计与实现”——听起来不花哨,但每个

环节都能用上专科阶段学的真本事。

接下来的两个月,我几乎泡在实训室。先是找学校信息中心要数据权限,

人家主任说:“数据涉及隐私,你们得签承诺书,而且只能用匿名后的脱敏数

据。”我们赶紧写了份详细的使用说明,保证不泄露任何个人信息,这才拿到

1

了2021-2023级共8000条学生的基础数据。数据拿回来一看,问题来了:图书

馆的刷卡记录里,有15%的时间戳是乱码;食堂消费数据里,有300多条记录

的“消费金额”是0,明显是测试数据;甚至还有学生的“晚归次数”和“宿

舍号”对不上——这就是老师常说的“数据脏”啊。我翻出《数据清洗与预处

理》的课本,一条一条处理:时间戳乱码的,通过相邻记录的时间间隔做插

值;消费金额为0的,联系食堂确认是“教职工卡代刷”,直接标记为无效数

据;晚归次数对不上的,找宿管阿姨核对原始登记本,手动修正了200多条。

现在想想,那会儿蹲在宿管办公室翻旧本子的样子,真是把“专科生的踏实”

写在了脸上。

数据清洗完,该建模分析了。我们想找“学习成绩”和“行为数据”之间

的关联,可一开始用线性回归模型,R²值只有0.3,老师说“说明变量选得不

合适”。我们又把“图书馆高频时段”(比如晚上7-9点)、“食堂消费间

隔”(比如是否规律吃三餐)这些更细的指标加进去,改用随机森林模型,准

确率一下提到了0.72。记得那天模型跑通时,我盯着屏幕上的混淆矩阵,手都

在抖——这不是冷冰冰的数字,是我们熬了三个通宵调参、查资料的结果啊。

可视化部分,我们用了学过的ECharts,把“某学院学生周消费分布”做成热力

图,把“挂科学生晚归频率”做成箱线图,辅导员看了直点头:“这个图比我

记的小本本清楚多了!”

最难忘的是答辩前一周。我们把系统demo拿给往届毕业的学长看,他提

了个关键问题:“你们分析的是历史数据,能做点预测吗?比如下学期哪些学

生可能挂科?”这可难住了我们——专科阶段没深入学过时间序列预测,怎么

办?我翻出《Python机器学习实战》,现学现用ARIMA模型,又找老师借了

研究生的《预测分析》课件,熬了两个大夜调整参数。当系统终于能输出“未

来30天高风险学生名单”时,我给小组群发消息:“成了!虽然准确率只有

65%,但至少能给辅导员提个醒。”

现在回想起答辩那天,我站在讲台上,看着评委老师点开我们的系统,滑

动鼠标查看“某班级图书馆访问热力图”,心里突然踏实了——这个带着“专

科大数据技术专业”烙印的毕设,没有用复杂的神经网络,没有炫目的可视化

特效

文档评论(0)

1亿VIP精品文档

相关文档