- 0
- 0
- 约8.42千字
- 约 5页
- 2021-03-26 发布于广东
- 举报
基于语义特征的网络舆情正负面监测
administrator | 07 八月,2012 08:24
文章作者:优捷信达研究员Annie Qi
在上一篇《网络舆情正负面信息识别的方法》文章屮,结合本人在优捷信达科技研究工作,为您详细介绍情感分析屮 与舆情正负血密切相关的“极性分类。本文将延续上一篇文章的主题,详细描述具体的正负面辨别方式,并分析优缺点, 帮助您了解市场上流行“舆情监测”,”口碑监测“,“消费者调研”等信息处理系统的工作原理。
首先I叫顾上一章的介绍,网络评价和信息的正负面识别,包括优捷信达科技在内的技术领先型舆情口碑监测公司,都 是通过极性分类(polarityclassification)这一步骤来实现,极性分类首先将具有情感倾向的相关词语提取出来,叫做“特征 提取” (feature extraction)o简单来说,如何通过计算机判别正负面,就是通过提取句了屮的正负面词语,通过词语的正负 血来判断文章的正负面倾向。
到目前为止,基于优捷信达科技的研究调杳,目前业内主要特征提取技术分别是“基于语义和“基于词出现及频率哂种 模式。木文将重点讨论基于语义特征的模式,下一章将介绍基于词的出现及其频率的模式,并分别讨论它们的优缺点。
基于语义特征的特征提取模式,也就是根据词语表达的意思,即根据字面意思来辨析句了所表达的正负面。这一方式 有三个重要的代表性方法。分别是:人丁?建构情感词条的方法、PMI-IR算法(PMI-IR Algorithm)和同义词与反义词方法。
人工建构情感词条
Tetsuya Nasukawa和Jeonghee Yi在2003年提出的特征提取的方法就是基于语义分析方法的原型Z—。他们通过识别 特定主题词和语气表达式之间的语义关系进行倾向性分析,采用白然语言处理技术分析特定主题和语气词Z间的语义关联。 具体方法如下:
第一步,他们首先手动构建了一个有3513个词条的情感词汇表。字典中毎个词语都包括情感,词性标记和规范形式的 情感词,比如(好,词性标记为正面,恶劣,词性标记为负瓯)。如果收录的情感词是一个动词,只要通过这一动词产生了 情感,该动词的宾语也将会被收录(比如:优捷信达科技致力于以高科技产品满足客户需求。如果“致力于”作为一个收录 的情感词并标记为正面,那么它所描述的“以高科技产品满足客户需求”就被认定为正面信息)。
第二步,他们使用了一些计算机工具(两个PoS-tags和一个句子结构解析器),可以识别短语边界和局部依赖性,比如: 针对“我喜欢打球!这个句子,通过T具可以识别短语边界为“打球,“喜欢打球“,我喜欢打球“,并且还可以分析出“打 的对彖是“球”,”喜欢的对彖是打球”这种短语Z间的依赖关系,针对每一个付了他们只提取一个代表性的情感词,当 一个句子屮存在多个情感词时,这种方式就不够好用。
第三步,将提取出来的情感词,放到Z前人工构建的情感词典里检索,找到情感词典中对应的词语以及它的正负面极 性。这样就完成了一个文木片段的情感极性判断。
通过以上方法,他们实验的准确率(精度)大约是75%?95%,但相对检索内容的杳全率(召冋率)较低只有20%?25%0 也就是说,实验检索结果整体是非常准确的,但是也有大量的数据没有抓取到,杳全率较低。
因为有来自于手工设定的情感词汇表,这种算法可以分析形容词、副词、名词和动词的情感极性。此外,他们还能理解 否定句和被动句。而且,这种方法不仅可以分析情感正负面,还可以提取出正负面所对应的主题。
然而,这个系统也有儿个校为明显的弱点。首先,这个系统需要大量的人工操作,当需要针对海量数据进行分析时,人工 设定词库的T作量将会非常巨大。第二,尽管它可以解决否定句和被动句,但是在处理更复杂的句法结构,比如双重否定句 时,就有可能发生误判。第三,因为杏全率较低,该系统不能有效地区分哪些是对客观事物的描述,哪些是主观情感的抒 发。导致杏全率低的原因是系统的情感词库是由人工输入,而让人丁输入全部的情感词是一件不太可能的事情。
2? PMI-IR 算法(PMI-IR Algorithm)
PMI-IR算法是特尼在2002年设计的,与第一种人工建构情感词条的方法相比,它们特征选取方法基木相同,但是它 不涉及太多人丁手动工作,并且这一方法可以针对整个篇章进行分类,而不是仅仅针对一小段文字,來提取相关主题的正负 面信息。
特尼将PMI-IR算法川于测定词汇的正负面倾向性。他评估了410篇评论,获得了74%的平均精度。他的算法的基木思 路是,把情感极性待定的主观词提取出来,拿它和两个情感极性计算“词条距离”。一篇文章最终被归类为哪个情感极性, 取决于该文章里面所有形容词性短语和副词性短语的平均“情感倾向分值SO (semantic orientation)o
具体步骤如下:
原创力文档

文档评论(0)