基于C4.5决策树算法的网络学习行为研究.docVIP

下载本文档

15
0
约4.04千字
约 7页
2017-03-29 发布于北京
举报
版权申诉

基于C4.5决策树算法的网络学习行为研究.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于C4.5决策树算法的网络学习行为研究.doc

基于C4.5决策树算法的网络学习行为研究　　摘要网络学习行为研究，是网络教育研究的重要组成部分。采用先进的人工智能技术对网络学习者的行为特征进行智能评价和预测，成为一个新兴交叉研究领域。采用C4.5决策树算法构建网络学习者行为特征系统，挖掘行为特征和学习效果关系的历史数据，建立学习效果-行为特征智能评价模型。通过实验仿真发现，C4.5决策树算法取得了较为理想的分类预测效果。　　关键词 C4.5算法决策树网络学习行为　　中图分类号：TP311.13 文献标识码：A 　　0引言　　网络学习系统以其开放的网络平台、多媒体数字化的学习资源、灵活自主的学习方式为人们提供了一种新型的学习平台，可以满足不同的学习者在不同的学习时间的个别化学习的需求。但大多数只是将教学资源放到了网络上，没有考虑到学习者的个性化特征。师生之间缺乏交流和反馈功能，教师难以对学生学习的过程进行控制，而学习者自己由于能力所限，也难以对学习过程进行自我控制，导致学习者信息迷航、情绪低下、学习热情衰减等问题，严重影响学习效果。因此，师生双方都迫切希望能够建立提供个性化的推荐和指导的学习系统。　　个性化指导的本质就是根据不同学生的个性特征提供有针对性的服务。因此，其最基本也是最首要的问题就是如何对学生的行为进行分析，并从中挖掘学生的学习特征。学习者的个性特征直接影响着学习者的学习行为和学习效果。本文研究决策树方法的经典算法C4.5算法，将其应用于网络学习者的网络学习行为，建立数据挖掘模型，合理将网络学习者分类，进而改进网络学习系统的设计方案。　　1 C4.5决策树算法　　决策树是判断给定样本与某种属性相关联的决策过程的一种表示方法，从数据中生成分类器的一个特别有效的方法是生成一颗决策树，该方法广泛应用于数据挖掘和机器学习等领域，用来解决与分类相关的问题。决策树表示法是应用最广泛的逻辑方法。目前生成决策树方法的算法主要有三种：CART算法，ID3算法，C4.5算法。其中C4.5算法具有分类速度快且精度高的特点，是发展得比较完善的一种决策树算法。　　C4.5算法是构造决策树分类器的一种有效算法，并最终可以形成产生式规则。C4.5算法的输入是一张关系表，由若干不同的属性及若干数据元组（称为训练样本）组成。属性分为两部分：一部分作为判定对象属性（判定树中的非叶节点）；另一部分作为分类对象属性（判定树中的叶节点）。C4.5算法采用信息熵的方法，比较各个判定对象属性的信息增益率的大小，选择信息增益率最大的属性进行分类，递归生成一个判定树。　　设|S|为训练集S的样本总数，共有m类样本Ci（i=1，2，3，…，m，），|Ci|为类Ci中的样本数，设Pi=|Ci|/|S|是任意样本属于Ci的概率，训练样本分类属性的总信息熵E（S1，S2，…，Sm）的计算公式为：　　E（S1，S2，…，Sm）=-（pi*log2（pi））……………………公式（1）　　设属性A具有v个不同值{a1，a2，…，av}，可以用属性A将S划分为个子集{S1，S2，…，Sm}，其中Si包含S中这样一些样本，它们在A上具有值aj（j=1，2，…，v）。设|Sij|为Si类中Cj的样本数，以属性A为分类所需的期望熵E（A）的计算公式为：　　E（A）= （|S1j|+|S2j|+…+|Smj|）*E（S1j，S2j，…，Smj）/|S|……公式（2）　　属性A相对于类别集合C的信息增益Gain（C，A）的计算公式为：　　Gain（C，A）=E（S1，S2，…，Sm）?HaE（A）………………公式（3）　　属性A相对于类别集合C的信息增益率GainRatio（C，A）的计算公式为：　　GainRatio（C，A）=Gain（C，A）/E（S1j，S2j，…，Smj）……公式（4）　　2 C4.5算法在个性化网络学习中的应用　　2.1问题定义与数据预处理　　网络学习行为的评定，一方面要根据网络学习者的的学习基础，同时还要结合每位学习者的具体表现和实际情况，包括学习动机、学习策略。根据学习者的学习基础、学习动机以及学习策略，建立C4.5决策树的分类预测模型，实现对网络学习行为特征进行评价。其实质是：运用C4.5算法进行数据挖掘，获得分类规律，即学习策略与学习行为特征之间的关系；推导出分类规则，即学习行为特征智能评价模型。文中网络学习行为数据的采集采用问卷调查与web服务器端日志获取两种方法，学习者的学习动机与学习基础采用问卷调查的方式来获得，学习策略通过web日志获取。　　我们对计算机学院2013级210名学生2015-2016学年的《操作系统》网络课程的学习行为建立数据表，进行分析和处理。其中包括字段：学号、学习基础、学习动机、