关联分析及神经网络算法在学生考研成功影响因素分析中应用.doc

关联分析及神经网络算法在学生考研成功影响因素分析中应用.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联分析及神经网络算法在学生考研成功影响因素分析中应用

关联分析及神经网络算法在学生考研成功影响因素分析中应用   摘要摘要:数据挖掘是指从大量数据中,通过算法搜索隐藏于其中的信息的过程,通过将数据转化为信息,实现数据的价值。以江汉大学数学与计算机科学学院学生为研究对象,通过数据挖掘分类预测分析数据信息,以Rapidminer软件作为分析工具,采用关联分析和神经网络算法,对成功考研学生的群体特征进行分析,研究学习成绩、身体素质、性别、专业差别对考研结果的影响 关键词关键词:数据挖掘;关联分析;神经网络算法 DOIDOI:10.11907/rjdk.162876 中图分类号:TP391 文献标识码:A文章编号文章编号2017)005014303 0引言 “考研热”已经成为一种社会现象,并持续升温。为进一步了解当代大学生的考研现状和成功考取研究生的因素,展开此次实验研究,研究对象为江汉大学数学与计算机科学学院(简称数计学院)的学生,通过数据挖掘分析,得出哪些因素会影响大学生成功考取研究生。因收集数据量较少,本文将从收集到的数计学院2012级学生的学习成绩、身体素质测试成绩、考研录取情况和基本信息等这些数据中,选取大学四年加权平均成绩、身体素质测试成绩、性别和专业差别这几方面展开分析 数据挖掘是从海量数据中发现有趣模式的过程。作为知识发现过程,它通常包括数据清理、数据集成、数据选择、数据变换、模式发现、模式评估和知识表示这6个方面[1]。其中前4个是数据预处理的不同形式,是为挖掘准备数据,本文将依次介绍本次数据挖掘实验的具体分析过程 本次实验基于Rapidminer 软件的数据分析平台,将收集的数据进行数据预处理(数据清理、数据规约、数据集成和数据导入)[2],研究各数据项与成功考取研究生的关系。实验研究发现,考研成功除去与学习成绩相关外,还与身体素质、性别和专业差别相关。此次实验研究结果可为学校指导学生考研提供参考 1相关算法 本次数据挖掘运用了目前常用数据挖掘算法中的两个算法:关联分析和神经网络算法 (1)关联分析(Association Analysis)。现有的关联分析算法有基于概率相似度的关联方法、基于机器学习的关联方法、基于Bayesian分类器的关联方法及基于先决条件的关联方法等。基于机器学习的关联方法只能对存在于线程中的数据进行关联,无法对未知数据进行关联,导致最后的分析结果存在较大误差。而基于Bayesian分类器的关联方法虽然时效性很好,但关联需要的知识依赖于知识库,无法获得计算所需的先验概率和条件概率[3] (2)神经网络(Neural Network)。人工神经网络是一种通过模仿生物神经网路的工作特征进行分布式信息处理的算法数学模型。神经网络是目前具有非常强大的预测功能的一种算法模型。一个完整的神经网络由输入层、隐含层和输出层组成,而每一层都由多个神经元组成[4] 2数据预处理 噪声是数据结果出现偏差的原因之一,由于采集的数据中有噪声影响因素,因此要对采集到的数据进行去噪处理,有效的数据预处理可以提高数据挖掘实验的准确率,经过系统导出来的原始数据存在不一致、不完整和噪声,根据实验需要,排除其它不良可忽视因素,结合教学实践对学生数据空缺、不一致数据进行数据预处理操作 本次实验数据源是江汉大学数计学院2012级学生在校四年加权平均成绩、身体素质测试各项成绩、考研录取情况和基本信息。基本信息中包含3个专业:数学与应用数学、计算机科学与技术、网络工程。身体素质测试项目有:身高、体重、肺活量、50米跑、立定跳远、1000/800米跑、坐体前屈、仰卧起坐/引体向上。数据库极易受噪声、缺失值和不一致的侵扰,数据库庞大并且大多数是来自多个异种数据源。低质量的数据会将导致低质量的挖掘结果,引起数据的具体真实性偏差[5]。因此,本次实验进行数据预处理主要为3个方面:一是缺失数据(数据属性中部分记录显示为空),二是噪声数据,三是重复数据(数据属性相同的记录)[6] 本次实验数据预处理因数据量小,故采用Excel进行初步简单处理。首先针对考研录取情况、身体素质测试各项成绩、学习成绩、基本信息4个表将学号作为关键字整合到1个表中,数据收集过程中会有部分数据不完整,因此需将信息残缺的元组和与此次实验无关的属性都剔除;其次数据要符合算法要求,部分文字表达的数据是不符合的,故将其用数字来代替,如男、女分别用0、1表示,3个专业数学与应用数学、计算机科学与技术和网络工程则分别用0、1、2表示,考研录取情况用0、1分别表示未录取和录取;最后需构建一个预测模型进行预测,需训练数据集和预测数据集,故从整合后新生成的数据表中随机抽取10个元组作为预测数据集,其余作为训练数据集。这是简单的数据预处理,后面将会运

您可能关注的文档

文档评论(0)

docman126 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档