优捷信达解密舆情监测不仅分析语义，更关注词.docVIP

下载本文档

2
0
约2.4千字
约 3页
2015-09-12 发布于重庆
举报
版权申诉

优捷信达解密舆情监测不仅分析语义，更关注词.doc

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

优捷信达解密舆情监测不仅分析语义，更关注词

优捷信达解密舆情监测:不仅分析语义，更关注词组结构 Annie Qi 优捷信达科技研究员在上一篇题为《基于语义特征的网络舆情正负面监测》的文章中（详见：/blog））的研究工作为您详细介绍了情感分析中与舆情正负面分析密切相关的“极性分类”。本文将延续这一主题，详细描述具体的正负面辨别方式，并分析其优缺点，以帮助您了解市场上流行的“舆情监测”、“口碑监测”、“消费者调研”等互联网海量信息处理系统的工作原理。网络评价和信息的正负面识别，需要通过计算机提取具有情感倾向的相关词语，这叫做“特征提取”（feature extraction）。简单来说，计算机判别正负面，就是通过先提取句子中的正负面词语，进而分析这些词语的分布来判断文章的正负面倾向。基于优捷信达科技的研究调查，目前业内主要特征提取技术有基于语义和词的出现及频率的两种模式。本文将重点介绍后一种模式，并讨论这种模式的优缺点。基于词条出现及频率规律的特征提取模式比基于语义的模式出现更晚。这种模式不分析情感关键词所代表的含义，而将重点放在了评估高频率词语的情感极性。尽管这种基于统计的方法并不符合直觉，但由于其在处理包含复杂句法结构甚至表达结构的句子时的优良表现，得到了业界越来越多的关注。以下将重点介绍两种典型方法。 1. 比较词语的出现及频率的方法提取情感词条的出现特征，最直接的方式有两种，第一种是观察情感词条是否出现，第二种是计算情感词条出现的频率。频率的方式在信息检索的领域中已经得到成功的运用，具体方法是使用预先选定词条的出现次数作为特征向量的值。与频率的方式不同，第一种方式将情感词条是否“出现”直接作为特征，也就是将频率简化为了一个是与非的二进制问题，如果一个词条出现了,与它对应的特征矢量就记录为1，否则则记为0。Bo Pang和Lilian Lee做实验在电影评论的方面比较了这两种方法，结果显示第一种“是否出现”的方法效果优于第二种“计算频率”的方法。这个意料之外的结果其产生的原因可能可以归结为主题分析（如谷歌通过关键词查找相关文章）和情感分析（如舆情口碑监测）的根本区别。主题分析的td-idf方法的成功从一个角度表明了一个文档的主题会以基本相同的形式在网络上大量存在，因此通过搜索相关的句子或短语就可以搜索到相应的内容。但是情感分析却不能用这种方式来实现，因为人们很少以雷同的内容表达主观意见。例如,人们在表达“苹果手机好”这样一个意思的时候，并不会简单地重复这一句话，而是会说苹果手机为什么好，因为什么原因感觉到苹果手机好。简而言之，对于苹果手机的各种正面评价，“苹果手机好”这一句子直接出现的概率很低。 2. 基于词的子序列与依赖子序列（即词组结构及相互关系）的方法 2005年，Shotaro Matsumoto等人提出了一种提取高频词序列和高频句子结构做为特征向量以进行情感分析的机器学习的方法：第一步，通过Prefixspan(一个开源的api)挖掘所有高频词的子序列。越多的句子中包含一个词序列，这个词序列被赋予的频率就越高，而高于预设阈值的词语就会被采用。Prefixspan从单字词开始，每次迭代新增一个字的宽度，直到当前语句里的所有词组都被遍历。第二步，通过FREQT挖掘所有的高频句子结构。越多的句子中包含某个句子结构，这个句子结构被赋予的频率就越高。换句话说，FREQT与PrefixSpan使用相同的方式提取一个句子里所有可能的子句结构的依赖关系。作为评测，这一方法（使用16种特性组合）被应用于两组影评的分析，这两组影评与Pang-Lee在2002年试验时采用的一样。在分析中，基于“单词+双词词组+词干依赖关系”的特征模版组合对于两个影评都是最优方案。而通过使用支持向量机（SVM），第一个影评的准确率从Pang—Lee(2002)达到的82.9%(一元模型算法)提升到了88.3%，第二个评论的准确率从87.1%(Pang-Lee，一元模型算法)提升为93.7%。更高的精度证明了这些基于统计方法的特征提取的可行性和重要性。与其它方法相比，使用高频词或依赖子序列子句依赖关系特征的方式具有显著的优势。特征本身可能会包含复杂的句式信息，如双重否定。而这种方法把我们从解析复杂的句子结构的工作中解放了出来。而解析复杂的句式结构可能在相当长的时间里，还将会一直是一个难以解决的问题。这种基于词语出现模式的特征本身就包含了句子结构的信息，因此给了我们征服复杂句式的可能性。如今，包括优捷信达科技在内的许多研究机构及其人员正在使用类似的方法来应对复杂的句式结构。一个例子是Shilpa Arora, Elijah Mayfield, Carolyn Penstein-Rosé and Eric Nyberg 2010年开发的一个用以挖掘具有代表性话题层面子