- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
学习分析及其数据处理技术研究
?
?
吴兴燕曹立勇王立平
摘要“学习分析技术”是大数据在教育领域的主要应用。本研究通过运用文獻分析法,剖析学习分析过程中最核心的数据分析环节,归纳出学习数据的分类及来源,并着重梳理了各种学习数据处理方法的特点与应用。最后,讨论了未来学习分析中数据处理面临的问题及挑战。
关键词学习分析;教育技术;数据分析
0前言
学习分析概念于2010年正式形成,G.Siemens将其定义表述为:“学习分析是利用数据挖掘成果,学习者产生的数据和分析模型探究信息和社会联系,并且对学习作出预测和建议”[1]。学习分析技术可以使学习者科学地认识自己的学习状态、有效地避免潜在的学习风险、提高自主学习能力。学习分析的过程运用了多种技术,全方位、深层次地解读学习过程中产生的数据,主要包括三个阶段:数据的采集、数据分析、评价与反馈。
1数据采集阶段
数据是学习分析的基础,学习数据的来源主要包含三个方面:学习者基本信息、学习者素质信息(生理因素、心理因素)、学习者学习行为数据。
(1)基本信息:通过管理平台采集、访谈、问卷调查等形式,获得学习分析对象的基本情况、自我认知等信息。
(2)生理素质数据:通过传感技术[2]等手段采集学习者的皮肤电导、心率、眨眼、体温、脑电波、血压等特定学习过程中的生理指标,分析其真实的生理变化过程,解读其认知能力与学习规律。
(3)心理素质数据:利用基于Web的日志挖掘等技术抓取万维网数据,获取学习者发布的微博、朋友圈、评论等信息,分析其心理健康情况以及道德观、人生观、价值观。
(4)学习行为数据:依据校园一卡通信息,整理出学习者日常生活规律数据,如日常消费信息、图书馆使用频度、日常作息规律等;依据多媒体网络教室软件数据,分析学习者学习进度、课堂氛围、学习环境、学习效果;通过统计在线学习管理系统、网络教育平台、MOOC等各种在线学习平台的行为数据,了解学习者学习活动的参与程度、学习坚持程度等行为信息。
2数据分析阶段
数据分析是学习分析的关键阶段,采集后的数据经清理、集成、变换、规约后得出样本集,并通过构建学习数据分析模型完成预测和评估。学习分析采用的数据处理技术主要有:分类与回归、聚类分析、关联规则挖掘等。
2.1分类与回归
在学习分析过程中,分类与回归常应用于课程选修情况、教师教学效果、学生学习成绩等方面的预测,以及对学生类型、课程内容等方面的分类识别。分类与回归是统计学中实现预测的建模技术,通过训练样本找到实值函数,两者的不同之处仅在于输出的变量是有限个离散变量(分类)还是连续变量(回归)。根据训练集判断所属类别是分类问题,而根据训练集推断输出值是回归问题。常见分类与回归有决策树、支持向量机、人工神经网络、线性回归等。
(1)决策树(DecisionTree)。决策树的结构中一个叶节点代表着某一类,一个内部节点代表着一个划分。算法步骤为:首先构造决策树,比较内部节点属性值,并判断其向下分支,直到结果节点(叶节点);再根据新样本点各属性值,从上到下遍历决策树,对应分类规律得出结果。决策树的生成模式简单,分类精度高。
(2)支持向量机(SupportVectorMachine,SVM)。V.Vapnik等学者于1964年从广义肖像算法中延伸出支持向量机理论,该方法的基本思想为:将样本点依靠核函数经过非线性映射至高维空间,应用凸优化方法寻找最优超平面,并运用线性学习机方法实现回归与分类(高维空间中SVM的线性解即是原来样本空间中问题的非线性解。)。支持向量机是一种最优化方法的机器学习算法,擅长于分类、回归、模式识别等领域,尤其在小样本、高维以及非线性场合下表现突出。
(3)人工神经网络(ArtificialNeuralNetwork,ANN)。人工神经网络是基于神经科学基础上提出的,通过建立运算模型(该模型由大量的神经元及其相应的联结构成),模拟人的大脑信息处理的方式,达到使计算机智能地处理实际问题的目的。1943年,世界首个描述大脑工作原理的数学模型——神经网络和数学模型(简称MP模型)由心理学家McCulloch和数理逻辑学家Pitts提出[3],模型基本原理是加权求和神经元所收到的信号,并将结果与阈值进行比较,以确定该神经元的输出。
(5)线性回归(LinearRegression)。线性回归模型研究的是自变量、因变量的定量关系。线性回归的发展经历了从只有一个自变量影响因变量的一元线性回归,到两个及以上的自变量共同估计、预测一种现象的多元线性回归,再到具有各种形态各异的曲线回归规律(即因变量为自变量一次以上函数)的非线性回归,以及响应变量的期望与线性自变量之间通过各种联系函数关联的各种广义线性回归模型。线性回归经过了严格研究,已在现实中得到了广泛的应
文档评论(0)