基于机器学习的在线学习数据分析与研究.docxVIP

下载本文档

42
0
约4.3千字
约 4页
2022-09-13 发布于广东
举报
版权申诉

基于机器学习的在线学习数据分析与研究.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于机器学习的在线学习数据分析与研究　　摘要：本文主要以机器学习方法为基础对学生在线学习行为数据进行分析和研究。首先采用多元线性回归的方法对从网络教学平台获得的14个量化特征按照对考试成绩的影响权重进行排序，随后采用广义回归神经网络分别对选出的权重较高的9个特征以及全部特征进行建模。结果表明，通过特征选择后的模型平均绝对误差为5.7，无论是在预测能力还是拟合优度方面都要高于采用全部特征的模型，因此该模型可以有效预测考试成绩，使教师能够识别出容易不及格的学生，及时提供干预与支持。　　关键词：机器学习;多元线性回归;广义回归神经网络;在线学习　　中图分类号：tp181文献标识码：a文章编号：1007-9416（2020）02-0069-02 　　0引言　　目前大学当中的高等教育，虽然教育体制相对完善，但普遍存在的问题是老师只能根据教学大纲中规定的任务授课，很少考虑到学生的接受程度，以至于学生在课堂上获得的知识个体差异明显，一部分学生能够完全领会老师所讲的知识，而另一部分学生或多或少存在知识点的遗漏。因此，工作在第一线的高校教师始终都在尝试实现个性化教育的方法，可惜的是至今还没有找到行之有效的解决方案。随着信息技术的迅速发展，教育信息化的深入应用，网络教学平台、自适应学习系统等应用的不断崛起，在线学习已经成为诸多高校普遍使用的一种教学方式。国外学术界研究在线学习分析技术的时间较早，并通过实证研究获得了丰富的研究成果。国内学者针对机器学习在教育领域的研究很少，少数学者仅从理论层面提出了在线学习数据分析在提高教师教学质量、学业成绩预警等方面的研究[1]。　　本文以大学计算机基础课程为例，采用的数据库含有从网络教学平台提取出的14个在线学习量化特征，包括：进入课程次数、向老师提问次数、课程讨论区发表话题次数等，这些特征与考试成绩密切相关。数据库含有355条学生数据，经过有效的数据集划分后，使用广义回归神经网路对全部特征以及通过多元线性回归进行特征选择之后得到的部分特征进行建模[2]。通过对结果的分析，可以得到模型的预测误差以及一系列评价指标，教师可以在考试前针对预测结果进行真正意义上的因材施教。此外，根据特征选择的结果，发掘出对于考试成绩影响较大的特征，在教学过程中可以进行更多的关注。　　1广义回归神经网络预测模型　　广义回归神经网络（grnn，generalizedregressionneuralnetwork）是由美国学者donaldf.specht提出的一种径向基神经网络[3]。grnn具有较好的非线性调节能力和柔性网络结构，以及高度的容错性和鲁棒性，适用于解决非线性问题。无论在学习速度上還是逼近能力方面，grnn相较于其它神经网络具有更强的优势。　　grnn的理论基础为非线性回归分析方法，独立变量x与非独立变量y的回归分析事实上是求得具有最大概率值的y。已知两个随机变量x和y的联合概率密度函数为f（x，y），设x的样本观测值为x，则y相对于x的条件均值为：　　=e（y/x）=（1）　　即为当输入值为x时，y的预测输出。　　应用parzen非参数估计，通过样本数据集可估算密度函数。　　=expexp（2）　　式中，xi，yi为随机变量x和y的观测值;p为随机变量x的维数;n为样本容量，σ为高斯函数的宽度系数，本文称为光滑因子。当光滑因子σ较大时，近似于所有样本观测值的均值。相反，当光滑因子σ趋向于0时，和训练样本比较接近。　　2实验结果　　2.1数据集准备　　对数据集进行合理的划分将直接影响到回归模型的稳定性。本文采用spxy（samplesetpartitioningbasedonjointx-ydistances）算法[4]将355条从网络教学平台获取到的学生学习行为数据按照4：1的比例分成由284条数据组成的训练集，和71条数据组成的测试集。根据上文提到的采用多元线性回归方法进行特征选择，得到的每个特征对于响应变量影响的权重如表1所示：　　根据上表1可知，对于学生期末考试成绩影响较大的特征有3号：课程讨论区发表话题次数、5号：课程讨论区被回文次数以及4号：课程讨论区回文次数。而1号：登录次数、6号：阅读课程教学材料次数以及2号：进入课程次数则对学生期末考试成绩影响较小。　　2.2实验结果分析　　本文分别选取全部特征以及采用mlr方法计算出的对于因变量影响较大的前9个特征作为模型的输入，将学生期末考试成绩作为模型的输出，采用grnn进行建模，通过计算平均绝对误差（meanabsoluteerror，mae）：　　mae=（3