- 0
- 0
- 约6.04千字
- 约 10页
- 2016-09-10 发布于北京
- 举报
一种分层多算法集成的微博情感分类方法.doc
一种分层多算法集成的微博情感分类方法
【摘要】目前主观信息情感分类常用的方法主要有基于知识工程和基于统计两类,其中基于统计的机器学习方法在效率上优于基于知识的方法,但单一的机器学习算法有各自的优缺点,难以胜任复杂的分类任务。本文将微博情感判别任务分层,在不同层次选择合适的机器学习算法,提出了一种多算法集成的微博细粒度情感分类方法。首先采用朴素贝叶斯(NB)分类器对微博进行有无情绪分类,然后采用AdaBoost集成算法对KNN进行集成训练出多个分类器,对有情绪微博基于训练出的多个分类器通过线性组合模型进行情感判别。实验结果表明,在文本分类任务中合理集成不同机器学习算法,较单一机器学习算法和基于情感词典的方法能够提高分类性能。
【关键词】微博情感判别;算法集成;机器学习算法;朴素贝叶斯;AdaBoost
1.引言
随着互联网的高速发展,“以用户为中心,用户参与”的开放式构架理念已深入人心,互联网用户逐渐由被动地接收网络信息向主动创造互联网信息迈进。门户网站、论坛、微博等网络媒介已经成为人们发布、传播和获取评论信息的重要平台。目前针对微博新兴社会媒体的情感分析已经成为研究热点,国内外学者对其开展了一系列的研究。国外一些学者采用基于语义的关联分析,基于情感词典和基于KNN、SVM等机器学习算法对twitter进行了大量情感分类的相关研究[2-5]。但由于中英文语言的差异,中文微博较英文微博具有更丰富的语义信息,上述方法直接应用到中文领域还存在一定局限性[6]。目前国内学者正积极针对中文微博的特点致力于中文微博情感分析方面的研究。文献[7]和[8]对不同的情感分类方法特征特征选择算法对微博情感褒贬分类进行了对比研究。文献[9]和[10]采用朴素贝叶斯算法分别对微博情感的正负分类问题进行了研究。上述研究基本上都局限在粗粒度的情感分类,粗粒度情感分类是指只对文本进行主客观分类或进一步将主观文本的情感区分成褒义和贬义两类,而在实际应用中,微博的细粒度情感(如“喜欢”、“高兴”、“悲伤”、“厌恶”等)更能体现用户对所关注事物的态度与更准确地反映用户对不同评价对象的情感。
机器学习算法对粗粒度情感分类具有较好的效果,而对细粒度情感分类采用单一的机器学习算法很难达到较高的性能。针对上述问题,本文将微博细粒度情感分类任务分解成有无情绪微博的粗粒度分类和对有情绪微博进行细粒度再分类两个子问题。首先提取文本词特征和词性特征,采用朴素贝叶斯算法对微博进行有无情感的初步划分,然后采用AdaBoost集成算法对NB简单分类器进行训练得到多个分类器,最后通过各分类器加权求和对微博进行7类细粒度情感分类。在NLPamp;CC2013公布微博数据集上,将本文方法与单一分类算法以及传统的基于情感词典的分类方法分别进行比较,实验结果表明本文提出的融合策略的效果较优。
2.微博情感本体库的构建
文本情感主要由情感词进行表征,但由于微博语具有达自由,存在大量变形词、新词和潜在情感词等特点,仅依靠现有情感词典对微博中情感表达词汇的覆盖率不高。本文以大连理工情感词典作为基础情感词典,其中共收录27476个词,每个词标注情感类别、情感强度等属性,并采用人工收集和程序自动获取两种方式对其扩展,构建了相对完善的情感本体库。
2.1 人工扩展
人工对情感本体库的扩展主要来源有两个方向,一是收集网络新词、热词;二是微博中常用的表情符号。新增词收集好后按基本情感词典的标注方法设置新增情感词的情感类别和强度,手工添加了如NND、MLGB、[哈哈]等情感词汇。
2.2 开方检验扩展
人工扩展虽然比较有针对性,但与数据样本的相关性不强,我们针对训练集,采用开放验证方法从中获取未收录的情感词。开方检验是一种通过比较实际值与理论值的偏差来确定理论正确与否的数理统计方法,将训练集中的词t看作是一个随机变量,将每个情感类别c看作另一个随机变量,如果t和类别c独立说明词t对类别c没有表征作用,即无法根据t出现与否来判断一篇文档是否属于c这个分类。通过假设词t与类别c不相关,计算词t与类别c的开方值,则开方值越大假设越不成立,即词t越能表征类别c。如表1所示:
表1 开方检验扩展情感词示例
特征选择 1.属于
“悲伤” 2.不属于
“悲伤” 总计
1.包含“大哭” A B A+B
2.不包含“大哭” C D C+D
总数 A+C B+D
微博中包含“大哭”的概率是(A+B)/N,属于“悲伤”类的微博数为A+C,所以在这些微博中,应该有E11=(A+C)(A+B)/N篇包含“大哭”这个词(数量乘以概率)。但实际属于“悲伤”又包含“大哭”的微博数是A,其方差为D11=(A-E11)2/E11
您可能关注的文档
最近下载
- 工程施工机具安全管理制度.pptx
- 2020年《钢结构设计规范》GB50017..pdf VIP
- 2024-2025学年河南省南阳市唐河县九年级(上)期末英语试卷(含答案).pdf VIP
- 浙江省杭州2024-2025学年高一上学期1月期末考试政治试题(含答案).pdf VIP
- 膜分离工程超滤(UF)课件.pptx VIP
- 浙江省杭州学军中学2024-2025学年高一上学期期末考试历史试题(含答案).pdf VIP
- 河南省南阳市唐河县2022-2023学年九年级上学期期末英语试卷.pdf VIP
- 旋挖钻孔灌注桩施工方案.docx VIP
- 阿特拉斯•科普柯 冷冻式干燥机.pdf VIP
- 超滤膜技术介绍.pptx VIP
原创力文档

文档评论(0)