- 0
- 0
- 约1.82万字
- 约 35页
- 2026-03-04 发布于河南
- 举报
数据挖掘实习报告
篇一:数据挖掘实习报告
通过半年的实习,我在这里得到了一次较全面的、系统
的锻炼,也学到了许多书本上所学不到的知识和技能。以下
是我这次的实习鉴定。
经历了实习,对社会也有了基本的实践,让我学到了书
本以外的知识,实习期间,我努力尽量做到理论与实践相结
合,在实习期间能够遵守工作纪律,不迟到、早退,认真完
成领导交办的工作。在实习鉴定中,我参与了整个数据分析
工作,从数据获取到数据清洗、数据报表的制定到模型的建
立以及模型监控等等,让我充分学习了数据分析岗位的实际
操作。
在实习初期,项目经理安排了我参与数据获取的相关工
作,主要是编写SQL代码在linux上用Perl语言调用获取
数据。起初觉得自己对SQL语言了解较多,以为这份工作非
常简单。但实际操作起来才知道,在数据量达到几百兆甚至
上GB级别的时候,所学的SQL根本解决不了问题。经向项
目经理学习,这才知道了如何使用分层次操作等速度较快的
SQL技巧。通过这两个月的实习充分认识到所学知识远远不
够。
完成数据获取阶段之后,项目经理开始安排数据清洗以
及数据报表制定的相关工作。接到这份工作之初,对数据清
洗并没有太多的认识,以为很多都是按照《数据挖掘》教材
中步骤进行就可以的。但经过项目经理指导之后才知道数据
清洗之前首先要对项目业务进行一定的了解,只有清晰了业
务数据的来源、数据的实际意义才知道哪些数据可以称为极
端值,哪些数据又是不正常的,制定报告或者交给模型分析
师时需要去除的等等。同时,在制定数据报表的同时学习了
很多excel函数的使用,透视表的使用,PPT报告的书写等
等。
在实习的后三个月,开始接触了模型的分析与监控。在
学习《机器学习》以及《数据挖掘》书本时,总会想到各种
各样的分类模型,也总会认为模型准确率高的模型才会是好
模型。在运用统计模型之前,项目经理首先向实习生介绍了
目前挖掘部门常用的分类模型以及具体的一些使用方法。其
中逻辑回归模型、决策树模型是常用的分类模型,回归分析
和时间序列模型是常用的预测模型,这与平日所学基本一致。
正当好奇为什么不使用支持向量机以及神经络模型之时,项
目经理说,由于模型结果都是要给市场部门的同事报告的,
所以模型结果最好能够简单易懂的。在实际工作才知道,一
般除了用模型准确率来衡量模型的效果外,还有例如灵敏度、
ROC曲线、RA曲线等等指标值。而模型的操作过程也不是想
象的那么简单,并不是用R软件上的几个函数,几行代码就
能解决的,选择什么参数、选择什么样的模型,当然最重要
的还是选择什么样的基础数据作为模型的训练数据才是最
重要的,这才发现项目经理之前提到的业务知识是多么的重
要。
在模型建立之后就是模型监控了,由于是我负责的项目,
所以项目经理也将监控这一任务交给了我。数据挖掘模型通
常情况下都是要上线的,但模型的效果会随着数据的变化而
变化,当模型的指标达到一定程度时就需要修改模型。在这
一阶段,充分锻炼了我的程序编写能力。
在整一个实习过程,非常感谢项目经理给予了我数据挖
掘整一个流程学习的机会,让我真正对数据挖掘的实际工作
有了一定的认识,也让我学习到了很多学校学习中学不到的
实际操作能力,在此表示衷心的感谢。
篇二:数据挖掘实验报告
经贸学院市场营销专业
数据挖掘管理实验报告
实验名称:数据挖掘—聚类分析
实验时间:XX年12月21日
班级11252
姓名潘宏
学号1125219
成绩
指导老师王林
一、数据建模过程
1、启动SPSS双击窗口底部节点选项板中的“源”中的
statistics文件建立文件,如图1。
图1
2、右击statistics文件编辑,如图2。
图
2
3、点击省略号其中一个选择文件打开。单击应用并确
定,如图3和
图3
图
4
4、双击输出选项中的表节点,如图5所示,表节点出
现在工作区中。
图5
5
原创力文档

文档评论(0)