不平衡数据分类方法研究及其在慕课课程评论情感分类中的应用.pdfVIP

  • 15
  • 0
  • 约6.25万字
  • 约 41页
  • 2020-08-22 发布于江西
  • 举报

不平衡数据分类方法研究及其在慕课课程评论情感分类中的应用.pdf

摘 要 随着信息技术的发展,越来越多的人在慕课学习平台上选择课程进行学习。 然而,慕课学习平台存在“低完成率”的问题。针对这个问题,有研究指出给学习 者提供人性化的学习支持服务可以促进学习者的持续学习。此外,有研究指出情 感支持服务是学习支持服务的重要部分。为了帮助学习支持服务者观察学习者在 学习过程中的情感变化并给学习支持服务中的情感疏导应用提供研究基础,本文 采用文本情感分类方法对慕课课程评论进行情感分类。 然而,不平衡数据分类问题是当前文本情感分类研究面临的主要挑战之一。 基于不平衡数据的训练使得分类结果严重偏向样本数量较多的情感类别,忽略样 本数量较少的情感类别,从而大大地降低分类性能。而有研究指出绝大多数慕课 课程评论持积极情感。基于不平衡数据的训练使得分类结果严重偏向积极情感, 忽略消极情感,从而大大降低消极情感的召回率。在情感疏导应用中更需要准确 识别消极情感学习者。因此,慕课课程评论情感分类中的不平衡数据分类问题是 一个亟需解决的问题。 本文针对不平衡数据分类问题,以慕课课程评论情感分类为应用背景,在数 据预处理层面和分类算法层面做了以下工作: (1)数据预处理层面。本文提出了一种基于注意力机制的不平衡数据欠采 n n 样方法。首先,该方法将多数类样本平均分成 ( 少数类样本数量)组;其次, 引入注意力机制得到每一组样本总的词向量表示;最后,将每一组样本总的词向 CNN convolutionalneuralnetwork 量表示和少数类样本的词向量表示输入 ( )训 练。实验结果表明该方法在分类性能上优于基于质心空间的不平衡数据欠采样方 法和基于样本权重的不平衡数据欠采样方法。 (2)分类算法层面。本文提出了一种融合CNN 和EWC (elastic weight consolidation)算法的不平衡文本情感分类方法。首先,该方法使用随机欠采样 方法得到多组平衡数据;其次,按顺序单独使用每一组平衡数据输入CNN 训练, 同时在训练过程中引入EWC 算法用以克服CNN 中的灾难性遗忘;最后,把使 用最后一组平衡数据输入CNN 训练得到的模型作为最终分类模型。实验结果表 明该方法在分类性能上优于基于欠采样和多分类算法的集成学习框架、基于预训 练词向量的文本情感分类方法和基于多通道LSTM (long short-term memory)神 经网络的不平衡情感分类方法。 CNN EWC 关键词:慕课课程评论;不平衡文本情感分类;注意力机制; ; I Abstract With the development of information technology, more and more people choose courses to study on the MOOC learning platform. However, there is a problem of “low completion rate” in the MOOC learning platform.Aiming at thisproblem, some studies have pointed out that providing humanized learning support services to learners can promote learners continuous learning. In addition, some studies have pointed out that sentiment support services are an important part of learning support services. In order to help the p

文档评论(0)

1亿VIP精品文档

相关文档