基于SPSS的学生成绩影响因素分析.docVIP

下载本文档

313
0
约3.22千字
约 5页
2017-12-25 发布于河北
举报
版权申诉

基于SPSS的学生成绩影响因素分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于SPSS的学生成绩影响因素分析

基于SPSS的学生成绩影响因素分析陈卓济宁市兖州区第一中学 X 关注成功！加关注后您将方便地在我的关注中得到本文献的被引频次变化的通知！新浪微博腾讯微博人人网开心网豆瓣网网易微博摘????要： “数据, 已经渗透到当今每一个行业和业务职能领域, 成为重要的生产因素。人们对于海量数据的挖掘和运用, 预示着新一波生产率增长和消费者盈余浪潮的到来。”互联网在日常运营中生成、累积了规模庞大的用户网络行为数据。用数据挖掘的方法有目的地收集和分析这些数据, 使之成为信息, 把隐没在杂乱无章的数据中的信息集中、萃取和提炼出来, 找出研究对象的内在规律, 是发挥数据价值的一种选择。本分析报告探究统计学意义上高中生学习成绩受哪些因素影响, 希望在熟悉数据挖掘等理论基础的同时, 能发掘有意义的研究价值, 给与正处于高中生活中的同学及家庭一些启迪。关键词：数据挖掘; SPSS; 决策树; 聚类; 关联分析; 1. 模型基础的数据挖掘模型有决策树, 聚类分析, 关联分析, 神经网络、回归分析、时间序列等, 本报告选取前三种进行实验并分析结果。 1.1决策树决策树是根据数据生成规则的一种简捷高效的预测模型, 他代表的是对象属性与对象值之间的一种映射关系。易于理解和实现, 能够直接体现数据的特点, 能够同时处理数据型和常规型属性, 在相对短的时间内能够对大型数据源做出可行且效果良好的结果, 易于通过静态测试来对模型进行评测, 可以测定模型可信度, 给定一个观察的模型, 很容易根据决策树推出相应逻辑表达式。模型也有一些缺点, 比如处理缺失数据时的困难, 过度拟合问题的出现, 以及忽略数据集中属性之间的相关性等。操作步骤理解如下: (1) 找分割点:贪心算法, 选当前纯度差最大的情况作为分割点。 (2) 分割成N1、N2。 (3) 对N1、N2重复1, 2, 直到每个节点足够“纯”。纯度的度量:熵, 纯度差:信息增益, C4.5算法中用信息增益率来选择属性, 克服了用信息增益选择属性时偏向选择取值多的属性的不足。 1.2聚类聚类的作用是对未分类的、无规律的变量进行处理, 使这些数据能够反映出一定的规律性或特殊的分类性。聚类可以用来对样品或者变量进行处理, 对n个样品进行聚类的方法称为Q型聚类, 常用的统计量称为“距离”;对m个变量进行聚类的方法称为R型聚类, 常用个统计量称为“相似系数”。将样本聚类, 从分析结果可以得出各类的特点;将变量聚类, 可从大量指标中提取出主要因素, 在不造成巨大的信息丢失的同时减少指标数量。 1.3关联分析关联分析用于发现大量数据中不同项之间的联系, 实际应用中可在交易数据、关系数据或其他信息载体中, 查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。其分析过程是挖掘满足具有最小支持度阈值的所有项集——频繁项集, 并在其中提取满足置信度的规则——强规则。本实验中采用著名的Apriori算法, 作为挖掘产生布尔关联规则所需频繁项集的基本算法。 2. 实验 2.1数据来源尝试爬取的数据很难清洗, 缺失值较多, 难以保证实验质量, 比较UCI、kaggle等网站数据后在UCI (/ml/) Machine Learning Repository上取得student数据集, 共394条数据, 因数据量较少恐影响实验结果, 因此按照千次有放回抽样进行扩充, 并与原数据合并, 共1394条数据进行实验, 数据特征包含:学校, 性别, 年龄, 地址, 家庭规模, 父母同居与否, 母亲教育程度, 父亲教育程度, 母亲职业, 父亲职业, 选校原因, 监护人, 到学校的路程, 每周学习时间, 之前挂科数, 额外教育支持, 家庭教育支持, 该课程额外支付, 是否参加课外活动, 上过幼儿园否, 是否有意升学, 家里有没网络, 是否恋爱, 家庭关系好坏, 休闲时间长短, 与朋友出门, 工作日酒精消费, 周末酒精消费, 最近健康状况, 逃课数, 第一学期成绩, 第二学期成绩, 最终成绩。 2.2实验流程本次实验在SPSS平台进行, 版本:29。SPSS全称统计产品与服务解决方案, 集成数据挖掘所需的常见模型, 可完成决策树、聚类、关联分析等实验。 2.2.1决策树 spss重新编码功能对G3进行离散, 0~12分视为不及格, 标0, 高于12视为及格, 标1。决策树模型简洁易用, 本次试验所用数据集完整度高, 不存在缺失等情况, 由于该模型忽略属性之间的相关性, 因此选择不同导向性、两两不相关的属性进行分析。将学生性别、监护人、父母亲受教育程度、学生在家上网情况, 及有无恋爱关系作为输入, 学生成绩作为输出, 选取C5.0决策树模型进行实验, 决策树模型结果见