决策树数据挖掘技术在学生管理中应用研究.docVIP

下载本文档

5
0
约3.25千字
约 8页
2018-08-22 发布于福建
举报
版权申诉

决策树数据挖掘技术在学生管理中应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

决策树数据挖掘技术在学生管理中应用研究

决策树数据挖掘技术在学生管理中应用研究　　数据挖掘可以在大量的、不完全的、有噪声的数据中挖掘出有价值的信息。决策树是数据挖掘的常用方法之一。本文在分析数据挖掘基本方法的基础上，详细介绍了决策树挖掘技术，阐述了决策树中ID3算法的思想，并采用ID3算法对学生管理进行了应用研究。　　【关键词】数据挖掘决策树 ID3 　　1 数据挖掘　　数据挖掘，即Data Mining，也称为数据采矿。它是数据库知识发现的一个步骤。数据挖掘从大量的数据中，通过算法，搜索出隐含于其中的有价值的信息。这些数据具有量大、噪声、模糊、随机、不完全等特点。数据挖掘的过程就是从这些数据中找出有价值的、先前不为人所认识的有价值的信息或知识的过程。数据挖掘通常借助于计算机或数学的技术，通过数理统计、机器学习、专家系统、模糊识别等方法来进行“挖掘”。具体而言，数据挖掘所采用的分析方法包含了分类（Classification）、估值（Estimation）、预测（Prediction）、关联规则（association rules）、聚类（Clustering）以及复杂型数据挖掘如Web挖掘等。　　数据挖掘的过程有几个步骤，首先是要确定业务对象，要清晰地定义数据挖掘的目的和业务问题；其次要进行数据准备，从与业务对象相关的内部、外部数据中选择适当的、适用于进行数据挖掘的数据，然后进行数据预处理，并将数据进行模型化处理，使数据适合某种挖掘算法的模型；数据挖掘的第三步是是进行具体的数据挖掘，即在前面几步的基础上，根据模型和选定的数据挖掘算法进行具体的挖掘；第四是进行结果分析，对数据挖掘的结果进行评估，明确本次数据挖掘的方法、模型的可信度等；数据挖掘的最后就是数据挖掘结果和模型的运用。　　数据挖掘的常用操作方法有决策树方法、人工神经网络方法、遗传算法、粗集方法、模糊集方法等。　　2 决策树算法　　决策树是数据挖掘的常用方法之一。决策树（即Decision Tree），是在已知各种情况发生的概率基础上，通过构建决策树来求取净现值的期望值在大于等于零情况下的概率，由此做项目风险评价，并判断其可行性的分析方法。　　决策树是一种树形结构，是根据策略抉择而建立起来的一种属性结构。在决策学习中，决策树就是一个预测模型，代表了对象属性与对象值之间的映射关系。决策树中每个节点表示对象的属性，而分支则代表属性的取值，叶子节点代表一个分类。简言之，决策树就是基于分类训练集的预测树，用于预测和归类。　　决策树的起源源于概念学习系统，到ID3算法的时候真正发展起来。在早期，决策树是人工智能的重要方法，随着数据挖掘技术的发展，决策树成了构建决策支持系统的一种重要工具。　　在决策树的算法中，ID3算法是比较成熟的算法之一。ID3算法以信息增益来决定属性的选择，选择分支后信息增益最大的属性进行分支。　　ID3算法的基本思想是：　　（1）通过自顶向下的贪婪搜索，遍历可能的决策空间构建决策树；　　（2）确定一个属性作为根节点，而后为每个可能的属性值构建一个分支，并把训练样例归到适当的分支中，也就是将样本分成多个子集，每个子集对应到一个分支中；　　（3）不断重复这个过程，仅使用真正到达这个分支的样本；　　（4）如果在一个节点上的所有样本所拥有的类别相同，则停止该部分树的继续扩展。　　那么，怎么确定哪个属性是最佳的分类属性呢？那就要依靠“信息增益”来确定。信息增益（Infromation Gain）是用来衡量给定的属性区分训练样本能力的指标。在属性在分裂中，选择信息增益最大的属性作为分裂属性。信息增益用信息“熵”来具体衡量。熵描述了任意样本集的纯度，可以衡量数据集的不确定性、突发性或不确定性的程度。当一个数据集里面的记录全都属于同一类别时，则熵为零，因为同一个类别，代表着没有不确定性。在决策树分类中，就是要将样例划分为一个个确定的、归类为同一类别的子集，或者说使分裂后的子集的熵尽可能的小。　　在决策树的分类思想中，熵越小，信息增益就越大，决策树分类就是选择增益最大的属性来作为决策树的分类节点，然后由该属性的不同取值建立不同的分支。而分支中，则采用同样的方法，递归地进行分类，直到所有子集都能归为同一个类别为止。　　可以这样进行属性的信息增益计算：　　设C是样本里面的类别数，S是样本，P（s，j）表示样本S里面样本属于第j类的概率，即p（i，j）=sj/S，是样本S中属于类j的样本数。对于一个给定的样本分类，望信息增益为：　　具有值集的属性T，可以将S划分为不同的子集{S1，S2，...Sk}，其中sj包括了类Ci的Sij个样本，根据T的这种划分的期望信息，称作T的熵。其加权平均为：　　T的信息增益定义为：　　3 决策树I