基于话题特征词情感倾向性探究.docVIP

下载本文档

4
0
约3.12千字
约 7页
2017-06-12 发布于福建
举报
版权申诉

基于话题特征词情感倾向性探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于话题特征词情感倾向性探究

基于话题特征词情感倾向性探究　　[摘要]面对民众观点日益沸腾的互联网时代，如何理解网络舆情的倾向性，并且对舆情加以合理的引导是一个日益重要的课题。本文利用PLSA模型对不同时间段上的网络舆情话题进行子话题提取，采用基于HowNet的语义相似度模型对相应的子话题进行情感分析，通过与阈值的比较得出该话题的褒贬程度 [关键词]话题特征词；PLSA模型；语义相似度；情感倾向性 doi：10.3969/j.issn.1673 - 0194.2016.22.098 [中图分类号]TP393.09 [文献标识码]A [文章编号]1673-0194（2016）22-0-02 0 引言随着互联网的快速发展，网络逐渐成为民众取得和发布信息的主要平台。但是，正是由于网络的便利性和虚拟性，网络信息的真实性鱼龙混杂，而面对稂莠不齐的信息源，广大民众不仅能够随时随地接收，还能够任意转发。对网络舆论进行适当的引导是非常必要的，否则可能引发不良后果，以致形成一定程度的恐慌，更进一步影响到其他民众的正常社会生活因此，准确了解公众的看法，对普通民众情绪进行及时有效的引导是人们一直以来不断努力的方向。本文试图通过PLSA模型和基于HowNet的语义相似度模型，探究网络舆情的情感倾向性，从而提出对策，以满足政府和企业舆情监控以及控制的要求，为政府机构舆论引导的方向和内容提供依据明确的参考 1 网络舆情情感倾向性分析模型网络舆情话题情感倾向性分析模型共分为2个部分：话题提取和情感分析。其中话题提取主要采取的是PLSA模型，情感分析主要采取的是基于HowNet的语义相似度模型 1.1 话题提取 1.1.1 文本采集本文研究的是网络热点事件的情感倾向性，因此在数据采集过程中，首先要确定一个网络热点事件，然后利用网络爬虫到知乎、豆瓣、微博、新闻等平台上获取该网络热点事件的信息 1.1.2 文本分词本文主要采用ICTCLAS汉语分词系统。具体ICTCLAS文本分词处理过程如图1所示采用Java编程实现初步文本分词，再利用停用词表和Java程序，进行停用词处理，从而得到相应的文档-词共现矩阵 1.1.3 子话题抽取采用PLSA模型对子话题进行抽取，生成k个子话题，并得到特征词在k个子话题上的概率分布。具体PLSA模型的应用如下： PLSA模型，全称为概率潜在语义分析模型，将概率统计模型与EM算法相结合，实现对子话题的抽取。PLSA的概率模型图，如图2所示其中D表示文档，Z表示主题，W表示观察到的单词在该PLSA概率模型中，已知（di，wj），Zk是隐含变量。则（di，wj）的联合分布见公式（1）其中，P（zk|di）和P（wj|zk）都对应多项式分布，笔者通过最大期望（Expectation Maximization，EM）算法来估计多项式分布中的参数。该算法主要分为E步骤和M步骤，然后进行迭代求解针对PLSA模型中的参数估计，在E步骤中，使用贝叶斯公式直接计算Zk的后验概率，见公式（2）在M步?E中，是利用E步骤中的后验概率求得P（zk|di）和P（wj|zk），然后进行迭代求解，得到参数值见公式（3）、（4） 1.2 情感分析本文对网络舆情情感倾向性的分析主要是通过对话题特征词倾向值的度量，判断该网络热点事件的褒贬程度。其中，默认0为阈值，即倾向值大于0时判断为褒义，小于0时则判断为贬义对于话题特征词倾向值的度量，本文是基于知网HowNet，进行语义相似度的计算，从而计算得到相应的情感倾向值。在知网中，词语是通过义原来描述的，所以将词语的情感相似度转化为义原的情感相似度。义原相似度的计算公式为式（5）其中，α为权值，w为词语将最大的义原相似度作为词语相似度，公式为（6）其中，y词语的义原假设共有k对基准词，则单词w的语义倾向值计算公式（7）其中，key-pi、key-ni分别为褒义基准词、贬义基准词，Orientation（w）为单词w的语义倾向值：通过加权求和可以得到特征词的情感倾向性值 2 基于话题特征词的情感倾向性实证分析笔者通过实例进行分析，从而验证本文所提网络舆情情感分析方法的可行性。本文以2016年5月份的热点舆论“江苏高考减招”作为本文情感倾向性分析的对象。利用网络爬虫来爬取新浪微博2016年5月9日到5月11日关于“江苏高考减招”话题的所有微博，设置的时间间隔为1天，划分实验预料，在5月9日到5月11日这个时间段，新浪微博中关于这个话题的讨论热度从热烈到逐渐平缓，因此，选择这个时间段对舆情情感的变化和分布进行探究 2.1 PLSA舆情子话题抽取