网站大量收购独家精品文档,联系QQ:2885784924

《基于互联网+大数据的舆情分析》课件_第2章.pptx

《基于互联网+大数据的舆情分析》课件_第2章.pptx

  1. 1、本文档共164页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第2章互联网+用户情感挖掘的技术与方法;

2.1情感词典构建方法;

如果这样设想,则可用一个无向图来表示字典中所有词语的关系。构建无向图G={V,E},其中,V为图中的节点集合,V={W0,W1,…,W9},代表字典中的每个单词;E为图中的连边集合,E={S10,S12,…,S90}代表词语两两之间的相似度,如图2-1所示。;

;

本方向基于这样的假设:具有较大的相似度的两个词语更有可能具有相同的语义倾向。这样,词语的语义倾向计算问题可以归结为对无向图G进行划分,使得符号相同的节点子图相似度之和最大;同时,让符号相异的节点子图相似度之和最小。这样,就确定了图中每个词语的语义倾向。;

定义2.1W为包含所有语义倾向的待定词语的集合,所包含词语的个数为N=|W|,且词语i与词语j的连接权重为;

定义2.2C1和C2为W的划分,即C1?W,C2?W,C1∪C2=W,C1∩C2=?。同时,为了便于说明,定义两个指示函数如下:

以及;

在经典的图划分问题中,对于多图划分问题,通常将目标函数定义为;

对于图的二分问题,目标函数可以简化为如下形式:

其中:

目标函数中包含两项:其中一项用于减少子图之间的连边数量;另一项用于平衡两个子图的规模差异。;

考虑情感词语的语气分类问题,由于事先不知道子图的大小,因此不能假定正负语气的两个子图规模大致相等,即不能采用式(2-5)中的平衡词语。下面以“最小切分”为目标对图进行划分,目标函数需满足以下几个条件:

(1)奖励子类内部的连边;

(2)惩罚子类内部的非连边;

(3)惩罚子类间的连边;

(4)奖励子类间的非连边,即;

同时,可以将目标函数所满足的条件归为两类:条件(1)和条件(2)用于增加子类的内聚性;条件(3)和条件(4)用于减少子类之间的耦合性。具体的实现方法有以下三点:

(1)利用词语间关系构建词语无向图;

(2)将词语语义倾向计算问题转化为图划分问题,并进一步转???为函数优化问题;

(3)构建求解算法对目标函数进行求解。;

2.词语相似度计算

词汇相似度计算是自然语言处理、信息检索和信息抽取等领域的一项重要且基础的工作,目的是度量词语之间的相似程度。通常,相似度值被定义为0~1之间的一个实数,绝对值越大,相似度越高。

计算相似度有两种思路:一种是利用统计方法,通过分析大规模语料中的词语分布规律,得出词语的相似度;另一种是基于词典的方法,比如英文词典WordNet和中文词典知网(英文名称为HowNet)。;

1)基于语料的词语相似度计算

互联网作为一个巨大的语料库,其价值已被越来越多的人认识。本章将传统的基于词语共现率计算相似度的方法进行适当变化,使其可以应用于互联网语料。;

;

2)基于HowNet的词语相似度计算

知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

对于汉语词汇,知网中的描述基于“义原”这一基本概念。义原,可以被认为是汉语中最基本的、不易于再分隔的最小语义单位。;

3.问题求解

由于词语的语义倾向问题是一个NP完全问题,因此本节引入模拟退火的思想,将解决问题的过程转化为在目标函数的解空间中搜索最优解的过程。

模拟退火算法是基于蒙特卡罗迭代求解策略的一种随机寻优算法,其出发点是基于物理中固体物质的退火过程与一般组合优化问题之间的相似性。

模拟退火算法是局部搜索算法的扩展,它不同于局部搜索之处是:以一定的概率选择领域中的最优值状态。;

1)模拟退火算法的马氏链描述

马氏链是分析模拟退火算法的重要数学工具,下面首先介绍模拟退火算法的马氏链描述。;;;

2)基于模拟退火的词语语义倾向判定算法

基于模拟退火的词语语义倾向判定算法的伪代码如下所示。

3)SOSA算法的收敛性

模拟退火算法要实现全局收敛,直观上必须满足以下几个条件:

(1)状态可达性,即对应马氏链的状态图是强连通的;

(2)初值鲁棒性,即算法的最终结果不依赖于初值;

(3)极限分布的存在性。

;;;

;;;

2.1.2基于Modularity优化的通用情感词典构建

1.背景

图划分方法能够更好地利用词语间的全局信息,因此,本节从图划分的角度进行词语语义倾向计算。;

通常以最小切分

文档评论(0)

酱酱 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档