- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
112|什么是文档情感分类?
2018-05-18洪亮劼来自北京
《AI技术内参》
到目前为止,我们讲完了对话系统的基础知识。一般来说,对话系统分为“任务型”和“非任
务型”这两种基本类型。针对任务型对话系统,我们重点介绍了其各个组件的任务,以及这些
组件都有哪些模型给予支撑。针对非任务型对话系统,也就是“聊天机器人”,我们主要介绍
了如何利用深度学习技术来对一个聊天机器人进行建模,以及非任务型对话系统所面临的挑战
都有哪些。
今天,我们转入文本分析的另外一个领域,同时也是在实际系统中经常会使用的一个子领域,
那就是文本“情感分析”(SentimentAnalysis)。所谓情感分析,就是指我们要针对一段文
本来判断这段文本的文字“色彩”,到底是褒义,还是贬义,到底是抒发了什么情感。
文本情感分析是一个非常实用的工具,比如,我们需要分析用户对于商品的评价带有什么样的
情感,从而能够更好地为商品的推荐和搜索结果服务。再比如,通过文本的情感分析,我们可
以了解到用户针对某一个时事的观点异同,以及观点分歧在什么地方,从而能够更加清晰地了
解新闻的舆情动态。
今天,我们首先从最基础的文档情感分类(DocumentSentimentClassification)这个问题
说起。
基于监督学习的文档情感分类
文档情感分类属于文本情感分析中最基本的一种任务。这种任务的假设是,一段文本的作者通
过这段文本是想对某一个“实体”(Entity)表达一种情绪。这里的实体其实包括很多种类型
的对象,比如可能是商品,某个事件,也可能是某个人物。我们这里讨论的文本单元可以是一
个文档,也可以是一个句子等其他的文本段落。
值得注意的是,我们在这一类任务中,限制一个文本单元只表达,或者主要表达一种情感。很
明显,这种假设是比较局限的。一般来说,在实际的应用中,一个文本单元,特别是比较长的
单元例如文章,则往往包含多于一种的情绪。因此,我们可以看到文档情感分类其实是一种简
化了的情感分析任务。
同时,一个文本单元还可能对多个“实体”进行情感表达。比如一个用户针对某种款式相机的
多个方面进行了评价,那么每一个方面都可以作为一个实体,而这种时候,用户的情感可能就
更难仅以一种情感来加以概括了。
在最基本的文档情感分类的情况下,我们往往把这类任务转化成为一种监督学习任务,也就是
说,我们希望通过一个有标签的训练集学习到一个分类器(Classifier)或者回归模型
(Regression),从而能够在未知的数据上预测用户的情感。
这里往往有两种形式的监督学习任务。一种是把文档分类为几种,最简单的情况下是两种情
感。这就是二分或者多类分类问题。另外一种则是认为文档会有一种情感,但是每一种情感之
间有好坏的顺序区分,比如,评分“好”,就比“一般”要好,也就是说,这些评分之间有一
个次序问题。那么,很多时候,这种问题会被归结为一种“次序回归”(Ordinal
Regression)问题。
在明确了我们需要构建什么样的监督学习任务以后,对于这些任务而言,如何选取“特性”
(Feature)就是一个很重要的工作了。诚然,对于每一个具体的任务而言,我们往往需要选
取不同的特性,但是在过去的很多实践中,经过反复验证,有一些特性可能会有比较好的效
果。我在这里做一个简单的总结。
首先,我们曾经多次提到过的“词频”(TermFrequency)以及更加复杂一些的TF-IDF词
权重法都是经常使用的文字特性。在文档情感分类中,这一类特性被认为非常有效。
另外一种使用得比较频繁的特性就是“词类”(PartofSpeech)。词类提供了句子中每个词
的成分,比如哪些词是动词,哪些词是名词等等。这些词性可以跟某种特定的情感有很密切的
联系。
还有一种很直观的特性就是“情感词汇”。比如,我们已经知道了“好”、“不错”等词表达
了正向的情感,而“差”、“不好”、“不尽人意”等词表达了负向的情感。我们可以事先收
集一个这类情感词汇的集合。这个集合里的词汇可以跟最后文档的情感有很直接的联系。
最后,需要指出的是,如何开发一个合适的特性往往是文档分类的重点工作。
除了特性以外,在文档情感分类这个任务中,传统上经常使用的文字分类器有“朴素贝叶斯”
(NaïveBayes)分类器、“支持向量机”(SupportVectorMachines)等。
基于非监督学习的文档情感分类
情感词汇已经为我们对大段文字乃至整个文档的分类有了很强的指导意义,因此,也有一些方
法寻求利用非监督学习的方式来对文档进行情
您可能关注的文档
- 025-ICML2018论文精读:模型经得起对抗样本的攻击?这或许只是个错觉【萌萌家】.pdf
- 026-ICML2018论文精读:聊一聊机器学习算法的“公平性”问题【萌萌家】.pdf
- 027-ICML2018论文精读:优化目标函数的时候,有可能放大了“不公平”?【萌萌家】.pdf
- 031-经典搜索核心算法:TF-IDF及其变种【萌萌家】.pdf
- 035-机器学习排序算法:配对法排序学习【萌萌家】.pdf
- 038-“查询关键字理解”三部曲之解析【萌萌家】.pdf
- 043-文档理解第一步:文档分类【萌萌家】.pdf
- 046-大型搜索框架宏观视角:发展、特点及趋势【萌萌家】.pdf
- 048-搜索索引及其相关技术概述【萌萌家】.pdf
- 049-PageRank算法的核心思想是什么?【萌萌家】.pdf
文档评论(0)