基于深度学习的文本情感分类研究.docVIP

  • 250
  • 0
  • 约4.05万字
  • 约 62页
  • 2019-05-13 发布于江苏
  • 举报
哈尔滨工业大学工学硕士学位论文 按照传统的解决文本情感分析问题的方法主要是采用分类、回归等方案, 但是这些方法均属于浅层结构算法,这些算法虽然在实践中有着实现容易,计 算简单等优势,但同时也存在着相当大的局限性,针对这些现实问题,本文课 题的研究点就是基于深度学习的方法处理文本情感分析的情感倾向性分类问题。 研究目的和意义 在文本情感分析任务中较为熟悉的、常用的机器学习方法,比如支持向量 机(SVM,Support Vector Machine),最大熵(ME,Maximum Entropy), Bootstrapping 以及随机游走(Random Walk)等方法都归类于浅层学习,这些 学习方法在建模的过程中使用到的函数简单,计算方法也都比较简单,容易实 现而且计算量较小,在有限的样本和计算单元的条件下导致其对复杂函数的表 达能力受到限制,同时对于复杂的分类问题这些方法的泛化能力也在一定程度 上受到制约[5]。但是深度学习却可以通过学习一种深层的非线性的网络结构来 弥补这一约束,它实现了复杂函数的逼近,采用分布式表示输入数据的表征, 与此同时,深度学习也展现了它强大的特征学习能力,即其可以从少量的样本 集中抓取到数据的本质特征[6-7]。 深度学习(Deep Learning)是相对于以往传统的浅层机器学习而言的,深 度学习概念是来自于对人工神经网络的研究,多层感知器(MLP,Multilayer Perceptron)是一种前馈人工神经网络模型,也属于一类深度学习结构。分布 式的特征表示方式是深度学习相较于浅层学习的一个重大进步,传统的浅层学 习中样本特征的表示采用的是数数的形式,而深度学习则是通过将底层特征进 行组合,形成更加抽象的较高层的表示形式,例如属性类别或者特征等,在此 基础上获得样本数据的分布式表示[6,8],这些分布式特征则是通过深度学习的 神经网络结构中的多个隐层结构逐层计算获得的。同时,深度学习的网络结构 因其涉及到多个非线性的处理单元层而导致它的非凸目标的代价函数计算过程 中普遍存在着局部最小的问题,优化的过程中极有可能在找到全局最小值之前 因局部最小值的出现而终止了优化的计算,这也正是深度学习在训练上比较困 难的主要原因。 尽管深度学习有着这样的困难,但深度学习拥有的优势仍然让很多研究者 趋之若鹜,让深度学习成为当前研究的热点课题之一。深度学习具有多层结构, 且这些结构之间均是非线性映射的,这使得深度学习可以很好的完成复杂函数 - 2 - 万方数据 哈尔滨工业大学工学硕士学位论文 的逼近,这也是深度学习能够成功应用的优势之一;除此之外,深度学习在理 论上是可以获得分布式表示的,也就是说可以通过逐层的学习算法来获得输入 数据的重要的驱动变量。学习过程中既保证了数据中本质特征的抽取,同时也 避免了过拟合现象的出现。 考虑到深度学习虽然在训练过程中计算量较大,但是它能够更好的刻画出 样本中丰富的内在信息,而且能够避免过拟合的问题,本研究课题选择其中一 种深度学习的方法研究文本情感分类问题,目的在于能够理论结合实践的探索 深度学习的应用,使其能够更好的为自然语言处理研究做贡献。 研究现状及分析 情感分析的研究现状 经过大量的调研发现,在现有的文献中,可归纳为解决情感分析研究的方 法可以采取基于规则的方法,也可以采用基于统计学习的方法。前者,大部分 的工作集中于分析规则的制定,这部分工作需要消耗大量的人力和时间,而且 当目标样本中的语言现象较多或者较为复杂的时候,规则的制定就是一项非常 艰难的任务,而且这种方法与研究目标紧密关联,导致制定的规则的迁移性非 常差。目前,多数研究情感分析的学者均采用基于统计学习的方法,学习目标 样本的特征,根据特征的分布对文本做出类别的判断。 情感分析根据研究的任务可划分为情感信息分类和情感信息抽取两类,根 据研究的粒度可划分为篇章级情感分析,段落级情感分析和句子级情感分析, 以及属性级情感分析四类。已有文献中大多数的研究成果都是篇章级或者是句 子级的情感分析研究。而情感信息分类又可以依据划分的类别分为二元分类, 即褒贬分类,和多元分类,如褒义,贬义和中性三类,或者根据情感的强度不 同划分为五类,七类等。 基于统计学习的方法,大致可以归纳为三类:有监督方法,无监督方法, 以及半监督方法。下面根据学习方法的不同介绍一些已有文献中比较有代表性 的研究成果[3]。 有监督(Supervised)学习方法中,模型是学习器使用丰富的有标记样本 来建立的,再用学习得到的模型预测未知样本的标记类别。早期使用的有监督 学习方法有朴素贝叶斯(Na?ve Bayes),支持向量机等。文献[9]是 Pang 等人在 2002 年发表的一篇文章,这篇文献是第一篇使用这种方法处理情感分类问题的 - 3

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档