基于SPSS的学生成绩影响因素分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SPSS的学生成绩影响因素分析

基于SPSS的学生成绩影响因素分析 陈卓 济宁市兖州区第一中学 X 关注成功! 加关注后您将方便地在 我的关注中得到本文献的被引频次变化的通知! 新浪微博 腾讯微博 人人网 开心网 豆瓣网 网易微博 摘????要: “数据, 已经渗透到当今每一个行业和业务职能领域, 成为重要的生产因素。人们对于海量数据的挖掘和运用, 预示着新一波生产率增长和消费者盈余浪潮的到来。”互联网在日常运营中生成、累积了规模庞大的用户网络行为数据。用数据挖掘的方法有目的地收集和分析这些数据, 使之成为信息, 把隐没在杂乱无章的数据中的信息集中、萃取和提炼出来, 找出研究对象的内在规律, 是发挥数据价值的一种选择。本分析报告探究统计学意义上高中生学习成绩受哪些因素影响, 希望在熟悉数据挖掘等理论基础的同时, 能发掘有意义的研究价值, 给与正处于高中生活中的同学及家庭一些启迪。 关键词: 数据挖掘; SPSS; 决策树; 聚类; 关联分析; 1. 模型 基础的数据挖掘模型有决策树, 聚类分析, 关联分析, 神经网络、回归分析、时间序列等, 本报告选取前三种进行实验并分析结果。 1.1决策树 决策树是根据数据生成规则的一种简捷高效的预测模型, 他代表的是对象属性与对象值之间的一种映射关系。易于理解和实现, 能够直接体现数据的特点, 能够同时处理数据型和常规型属性, 在相对短的时间内能够对大型数据源做出可行且效果良好的结果, 易于通过静态测试来对模型进行评测, 可以测定模型可信度, 给定一个观察的模型, 很容易根据决策树推出相应逻辑表达式。 模型也有一些缺点, 比如处理缺失数据时的困难, 过度拟合问题的出现, 以及忽略数据集中属性之间的相关性等。 操作步骤理解如下: (1) 找分割点:贪心算法, 选当前纯度差最大的情况作为分割点。 (2) 分割成N1、N2。 (3) 对N1、N2重复1, 2, 直到每个节点足够“纯”。 纯度的度量:熵, 纯度差:信息增益, C4.5算法中用信息增益率来选择属性, 克服了用信息增益选择属性时偏向选择取值多的属性的不足。 1.2聚类 聚类的作用是对未分类的、无规律的变量进行处理, 使这些数据能够反映出一定的规律性或特殊的分类性。 聚类可以用来对样品或者变量进行处理, 对n个样品进行聚类的方法称为Q型聚类, 常用的统计量称为“距离”;对m个变量进行聚类的方法称为R型聚类, 常用个统计量称为“相似系数”。 将样本聚类, 从分析结果可以得出各类的特点;将变量聚类, 可从大量指标中提取出主要因素, 在不造成巨大的信息丢失的同时减少指标数量。 1.3关联分析 关联分析用于发现大量数据中不同项之间的联系, 实际应用中可在交易数据、关系数据或其他信息载体中, 查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。 其分析过程是挖掘满足具有最小支持度阈值的所有项集——频繁项集, 并在其中提取满足置信度的规则——强规则。 本实验中采用著名的Apriori算法, 作为挖掘产生布尔关联规则所需频繁项集的基本算法。 2. 实验 2.1数据来源 尝试爬取的数据很难清洗, 缺失值较多, 难以保证实验质量, 比较UCI、kaggle等网站数据后在UCI (/ml/) Machine Learning Repository上取得student数据集, 共394条数据, 因数据量较少恐影响实验结果, 因此按照千次有放回抽样进行扩充, 并与原数据合并, 共1394条数据进行实验, 数据特征包含:学校, 性别, 年龄, 地址, 家庭规模, 父母同居与否, 母亲教育程度, 父亲教育程度, 母亲职业, 父亲职业, 选校原因, 监护人, 到学校的路程, 每周学习时间, 之前挂科数, 额外教育支持, 家庭教育支持, 该课程额外支付, 是否参加课外活动, 上过幼儿园否, 是否有意升学, 家里有没网络, 是否恋爱, 家庭关系好坏, 休闲时间长短, 与朋友出门, 工作日酒精消费, 周末酒精消费, 最近健康状况, 逃课数, 第一学期成绩, 第二学期成绩, 最终成绩。 2.2实验流程 本次实验在SPSS平台进行, 版本:29。SPSS全称统计产品与服务解决方案, 集成数据挖掘所需的常见模型, 可完成决策树、聚类、关联分析等实验。 2.2.1决策树 spss重新编码功能对G3进行离散, 0~12分视为不及格, 标0, 高于12视为及格, 标1。 决策树模型简洁易用, 本次试验所用数据集完整度高, 不存在缺失等情况, 由于该模型忽略属性之间的相关性, 因此选择不同导向性、两两不相关的属性进行分析。 将学生性别、监护人、父母亲受教育程度、学生在家上网情况, 及有无恋爱关系作为输入, 学生成绩作为输出, 选取C5.0决策树模型进行实验, 决策树模型结果见

您可能关注的文档

文档评论(0)

baoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档