基于ID3算法五年制高职学生成绩因素分析.docVIP

下载本文档

1
0
约5.09千字
约 12页
2018-08-28 发布于福建
举报
版权申诉

基于ID3算法五年制高职学生成绩因素分析.doc

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于ID3算法五年制高职学生成绩因素分析

基于ID3算法五年制高职学生成绩因素分析　　摘要：近年来，五年制高职教育飞速发展，各学校在不断探索五年制高职教育方式方法的同时，也形成了一定的培养评价机制，这些评价机制在培养方法与手段的评价方面，大都停留在经验判断和感性基础上，缺乏科学计算支撑。文章在梳理相关培养环节基础上，引进数据挖掘算法，将五年制育人各个环节要素作为输入，通过算法，将培养环节各数据要素隐含的信息量化到学生成绩这一个“基点”上，并且通过构造五年制高职教育中学生成绩因素的决策树实现数据可视化，从而指导我们优化教育资源和培养结构，增强下一步教育方法改进的精准性与高效性。　　关键词：数据挖掘；五年制高职；ID3算法；决策树　　中图分类号：TP18 文献标识码：A 　　1 引言（Introduction）　　五年制高等职业教育近年来发展飞速，为各地培养了大批初中毕业起点的高等职业技术技能人才。然而五年制高职生源的普遍入学成绩较上高中的学生成绩低，这已经是业内共识。这就要求各五年制高职学校立足于生源实际特点，科学利用各种教育方式和教育资源，挖掘有利因素积极促进学生成长成才。传统的学生成绩统计方法已无法发现学生成绩数据中存在的关系和规则，更无法根据现有的数据预测未来的发展趋势[1]。因此一种新的数据分析技术――数据挖掘技术应运而生。文中将影响学生成绩的因素通过ID3算法构造五年制高职学生成绩决策树，把学生成绩和培养要素之间的关系实现可视化。为更好开展教育教学工作和学生自我学习提供参考依据。　　2 原理介绍（Principle introduction）　　2.1 数据挖掘　　数据挖掘（Data Mining，简称DM），简单地讲就是从大量数据中挖掘或抽取出人们事先不知道但又潜在有用的知识的过程，又称为数据库中知识发现（Knowledge Discovery in Database，简称KDD），它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。数据挖掘技术涉及多学科交叉领域，融合了统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等最新研究成果。目前，数据挖掘方法主要有分类算法、回归算法、分割算法、关联算法、顺序分析算法等。本文就是汇集五年制高职学生培养的训练集，采用分类算法，建立分类模型，为每个类别做出准确的描述，从看似无关的数据中挖掘出分类规则，实现对下一步训练方法的决策和对未来的数据的预测。　　2.2 决策树的分类方法介绍　　决策树（Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，是直观运用概率分析的一种图解法[2]。决策树是一个预测模型，它代表的是对象属性与对象值之间的一种映射关系。决策树分为分类树和回归树两种，本文就是用影响学生成绩的离散因素进行分类算法构造分类树。所谓分类算法，简单来说，就是根据文本的特征或属性，划分到已有的类别中。它提供一种在什么条件下会得到什么值的类似规则的方法，采用自顶向下的递归方式，在决策树的内部节点进行属性值的比较，并根据不同的属性值从该节点向下分支，叶节点是要学习划分的类，从根节点到叶节点的一条路径就对应着一条分类规则，整个决策树就对应着一组析取表达式规则，如图1所示。常用的分类算法包括：决策树分类法、朴素的贝叶斯分类算法（native Bayesian classifier）、基于支持向量机（SVM）的分类器、神经网络法、k-最近邻法（k-nearest neighbor，kNN）、模糊分类法等。　　图1 决策树的构造和剪枝去噪过程　　Fig.1 Process of decision tree building and improving 　　2.3 ID3算法描述　　ID3算法最早是由罗斯昆（J?Ross Quinlan）于1975年在悉尼大学提出的一种分类预测算法，算法的核心是“信息熵”，信息熵就是一组数据包含的信息概率的度量，该算法是以信息论为基础，以信息熵和信息增益度为衡量标准[3]。ID3算法通过计算每个属性的信息增益，认为信息增益高的是好属性，每次划分选取信息增益最高的属性为划分标准，重复这个过程，直至生成一个能完美分类训练样例的决策树。　　设数据划分D为类标记的元组的训练集。假定类标号属性具有M个不同值，定义m个不同的类Ci（I=1，2，…，m），Ci，D是Ci类的元组的集合，和分别表示D和Ci，D中元组的个数。对D中的元组分类所需的期望信息由下式给出：　　（1）　　假设属性A具有v个不同的离散属性值，可使用属性A把数据集D划分成v个子集{D1，D2，…，Dv}。设子集Dj中全部的记录数在A上具有相同的值aj。基于按A划分对D的