决策树数据挖掘技术在学生管理中应用研究.docVIP

决策树数据挖掘技术在学生管理中应用研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树数据挖掘技术在学生管理中应用研究

决策树数据挖掘技术在学生管理中应用研究   数据挖掘可以在大量的、不完全的、有噪声的数据中挖掘出有价值的信息。决策树是数据挖掘的常用方法之一。本文在分析数据挖掘基本方法的基础上,详细介绍了决策树挖掘技术,阐述了决策树中ID3算法的思想,并采用ID3算法对学生管理进行了应用研究。   【关键词】数据挖掘 决策树 ID3   1 数据挖掘   数据挖掘,即Data Mining,也称为数据采矿。它是数据库知识发现的一个步骤。数据挖掘从大量的数据中,通过算法,搜索出隐含于其中的有价值的信息。这些数据具有量大、噪声、模糊、随机、不完全等特点。数据挖掘的过程就是从这些数据中找出有价值的、先前不为人所认识的有价值的信息或知识的过程。数据挖掘通常借助于计算机或数学的技术,通过数理统计、机器学习、专家系统、模糊识别等方法来进行“挖掘”。具体而言,数据挖掘所采用的分析方法包含了分类(Classification)、估值(Estimation)、预测(Prediction)、关联规则(association rules)、聚类(Clustering)以及复杂型数据挖掘如Web挖掘等。   数据挖掘的过程有几个步骤,首先是要确定业务对象,要清晰地定义数据挖掘的目的和业务问题;其次要进行数据准备,从与业务对象相关的内部、外部数据中选择适当的、适用于进行数据挖掘的数据,然后进行数据预处理,并将数据进行模型化处理,使数据适合某种挖掘算法的模型;数据挖掘的第三步是是进行具体的数据挖掘,即在前面几步的基础上,根据模型和选定的数据挖掘算法进行具体的挖掘;第四是进行结果分析,对数据挖掘的结果进行评估,明确本次数据挖掘的方法、模型的可信度等;数据挖掘的最后就是数据挖掘结果和模型的运用。   数据挖掘的常用操作方法有决策树方法、人工神经网络方法、遗传算法、粗集方法、模糊集方法等。   2 决策树算法   决策树是数据挖掘的常用方法之一。决策树(即Decision Tree),是在已知各种情况发生的概率基础上,通过构建决策树来求取净现值的期望值在大于等于零情况下的概率,由此做项目风险评价,并判断其可行性的分析方法。   决策树是一种树形结构,是根据策略抉择而建立起来的一种属性结构。在决策学习中,决策树就是一个预测模型,代表了对象属性与对象值之间的映射关系。决策树中每个节点表示对象的属性,而分支则代表属性的取值,叶子节点代表一个分类。简言之,决策树就是基于分类训练集的预测树,用于预测和归类。   决策树的起源源于概念学习系统,到ID3算法的时候真正发展起来。在早期,决策树是人工智能的重要方法,随着数据挖掘技术的发展,决策树成了构建决策支持系统的一种重要工具。   在决策树的算法中,ID3算法是比较成熟的算法之一。ID3算法以信息增益来决定属性的选择,选择分支后信息增益最大的属性进行分支。   ID3算法的基本思想是:   (1)通过自顶向下的贪婪搜索,遍历可能的决策空间构建决策树;   (2)确定一个属性作为根节点,而后为每个可能的属性值构建一个分支,并把训练样例归到适当的分支中,也就是将样本分成多个子集,每个子集对应到一个分支中;   (3)不断重复这个过程,仅使用真正到达这个分支的样本;   (4)如果在一个节点上的所有样本所拥有的类别相同,则停止该部分树的继续扩展。   那么,怎么确定哪个属性是最佳的分类属性呢?那就要依靠“信息增益”来确定。信息增益(Infromation Gain)是用来衡量给定的属性区分训练样本能力的指标。在属性在分裂中,选择信息增益最大的属性作为分裂属性。信息增益用信息“熵”来具体衡量。熵描述了任意样本集的纯度,可以衡量数据集的不确定性、突发性或不确定性的程度。当一个数据集里面的记录全都属于同一类别时,则熵为零,因为同一个类别,代表着没有不确定性。在决策树分类中,就是要将样例划分为一个个确定的、归类为同一类别的子集,或者说使分裂后的子集的熵尽可能的小。   在决策树的分类思想中,熵越小,信息增益就越大,决策树分类就是选择增益最大的属性来作为决策树的分类节点,然后由该属性的不同取值建立不同的分支。而分支中,则采用同样的方法,递归地进行分类,直到所有子集都能归为同一个类别为止。   可以这样进行属性的信息增益计算:   设C是样本里面的类别数,S是样本,P(s,j)表示样本S里面样本属于第j类的概率,即p(i,j)=sj/S,是样本S中属于类j的样本数。对于一个给定的样本分类,望信息增益为:   具有值集的属性T,可以将S划分为不同的子集{S1,S2,...Sk},其中sj包括了类Ci的Sij个样本,根据T的这种划分的期望信息,称作T的熵。其加权平均为:   T的信息增益定义为:   3 决策树I

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档