中文微博语料情感类别自动标注方法.docVIP

  • 30
  • 0
  • 约5.71千字
  • 约 7页
  • 2016-09-10 发布于北京
  • 举报

中文微博语料情感类别自动标注方法.doc

中文微博语料情感类别自动标注方法.doc

中文微博语料情感类别自动标注方法   摘要:针对大规模微博语料手动标注困难的问题,提出了中文微博语料情感类别自动标注的方法,包括基于关键词的、基于概率求和的和基于概率乘积的3种自动标注方法和一种集成标注方法。自动标注时首先分别使用3种标注方法进行标注,得到3种标注结果;然后,采用标注方法集成的策略,对3种标注的结果通过投票的方式决定最终的标注结果。通过设计自动标注实验系统进行实验,实验结果验证了所提方法的可行性和有效性。实验结果表明,单个标注方法的准确率均在70%以上,投票方法的准确率达90%以上。   关键词:中文微博;微博情感;情感分类;自动标注;准确率   中图分类号: TP301.6; TP391   文献标志码:A   Abstract: For the difficulty of manual annotation on largescale microblog corpus, three automatic annotation methods and an integrated annotation method by voting for Chinese microblog corpus were proposed. Three automatic annotation methods included keywordsbased annotation method, probabilitysummationbased annotation method and probabilityproductbased annotation method. During the process of automatic annotation, firstly, microblog corpus were annotated by three annotation methods respectively, and three results were obtained, then the final annotation results were determined by voting method with the integrated strategy. By designing automatic annotation experiment system, experimental results verify the feasibility and effectiveness of the proposed methods, and show that the accuracy of the single annotation method is more than 70%, and it is more than 90% for the voting method.   Key words: Chinese microblog; microblog sentiment; microblog sentiment classification; automatic annotation; accuracy   0引言   微博是一种流行的网络社交平台,用户通过操作手机就可以轻松实现获取、分享和转发微博平台上海量的微信息。对微博进行情感分析在市场分析预测、民意调查、智能导购、信息安全等诸多领域有着广阔的应用空间和发展前景[1-2]。微博语料库是进行微博情感分析研究的重要基础,要提高语料的利用价值,关键在于语料的标注,所谓标注[3]就是对语料库中的原始语料进行加工,把各种表示语言特征的附码标注在相应的语言成分上,以便于计算机的识读。然而,规模庞大的微博文本给通过人工标注工作带来非常大的困难,当前中文微博情感分析研究领域没有标准的语料库,这在一定程度上影响了该领域的研究。为了减轻标注人员的负担,提高标注的效率和精确度,减少标注的错误率,非常有必要研究自动标注方法,以便协助标注人员的工作。因此,探索研究微博情感类别自动标注方法是一项非常重要的工作。   在语料库情感自动标注研究领域,李圣楠[4]提出一种无人工干预的微博语料库自动标注方法,采用表情符号及情感词对微博语料进行筛选标注,在特定语料集情况下其标注准确率达到了约83%;徐琳宏等[5]介绍了情感语料库构建中情感标注方面的相关成果,提出了相应的情感标注体系和规范,并对语料库中的情感分布进行了介绍,这有助于进行语料自动标注的研究;庞磊等[6]提出利用情绪词和表情图片两种情绪知识对大规模微博非标注语料进行筛选并自动标注,其用于电影及手机评论语料,标注准确率达到约87%;韩忠明等[7]以HowNet的情感词典为基础,提出一个微博新词发现算法,构建

文档评论(0)

1亿VIP精品文档

相关文档