- 15
- 0
- 约9.85千字
- 约 16页
- 2018-08-30 发布于福建
- 举报
基于词语相关度微博新情感词自动识别
基于词语相关度微博新情感词自动识别
摘要:针对微博中新情感词的识别问题,提出了一种基于词语相关度的微博新情感词自动识别方法。首先,对于分词软件把一个新词错分成几个词的问题,利用组合思想将相邻词进行合并作为新词的候选词;其次,为了充分利用词语上下文的语义信息,采用神经网络训练语料获得候选新词的空间表示向量;最后,利用已有的情感词典作为指导,融合基于词表集合的关联度排序和最大关联度排序算法,在候选词上筛选,获得最终的情感新词。在COAE2014(第六届中文倾向性分析评测)任务3语料上,提出的融合算法与点互信息(PMI)、增强互信息(EMI)、多词表达距离(MED)、新词语概率(NWP)以及基于词向量的新词识别方法相比,准确率至少提高了22%,说明该方法自动识别微博新情感词效果优于其他五种方法。
关键词:情感词识别;词语相关度;词向量;排序算法;微博
中图分类号: TP391
文献标志码:A
Abstract:Aiming at new sentiment word identification, an automatic extraction of new words about microblog was proposed based on the word association. Firstly, a new word, which was incorrectly separated into several words using the Chinese autosegmentation system, should be assembled as the candidate word. In addition, to make full use of the semantic information of word context, the spatial representation vector of the candidate words was obtained by training a neural network. Finally, using the existing emotional vocabulary as a guide, combining the associationsort algorithm based on vocabulary list and the max associationsort algorithm, the final new emotional word was selected from candidate words. The experimental results on the task No. 3 of COAE2014 show that the precision of the proposed method increases at least 22%, compared to Pointwise Mutual Information (PMI), Enhanced Mutual Information (EMI), Normalized Multiword Expression Distance (NMED), New Word Probability (NWP), and identification of new sentiment word based on word embedding, which proves the effectiveness of the proposed method.
Key words:sentiment word recognition; word association; word vector; sort algorithm; microblog
0 引言
微博作为当前社交媒体中的重要组成部分,以短小、精悍、快捷的特点博得大众的厚爱,它承载着海量的数据,涉及范围广泛。博主为了表达自己的情感意愿,往往不断创新,从而产生了大量的新词。所谓新词,是随着时代的发展而新创造或旧词新义的词[1]。据国家语委语言应用研究所统计,平均每年有800个新词出现。
由于中文词与词之间没有空隙,中文分词成为中文信息处理的重要步骤,而新词在分词过程中造成的错误超过了60%[2]。在情感分析方面,新创词也为情感分析带来很大的挑战。例如:“给力”作为新词,含义为“牛、酷、棒”,其情感倾向为正面,而分词过程将其错分为“给/p 力/n”,使其对于句子级和篇章的情感分析过程产生不良影响。另外,新词的出现也给命名体识别、机器翻译、问答系统等任务造成了很大的困扰。在第六届中文倾向性分析评测
原创力文档

文档评论(0)