- 8
- 0
- 约2.61千字
- 约 6页
- 2019-04-05 发布于广东
- 举报
跨多个社交网络舆情监控和研究方法探究
【摘要】社交网络使人们的交际和交流产生了新的方 式,对其进行舆情监控对政府部门、企事业单位、商业机构、 教育科研部门等都意义重大。本文对如何整合国内主要社交 网络信息,并利用文本挖掘、主题识别技术对其进行舆情监 控与分析的方法进行了研究。
【关键词】舆情监控;文本挖掘;主题识别;社交网络
0.引言
政府部门对社会舆论的及时检测、智能分析、危机应对 愈发重要;商业机构对产品及服务在市场中反响获取的即时 性、智能化要求,也超越了传统数据分析所能给予的水平。 我国社交网络是继即时通讯后发展尤为迅速的一种网络应 用。据统计,腾讯微博注册用户有4. 25亿,平均每秒新产 生50条消息,人均好友量120个,每月19亿消息量[1]。 而针对某一个社交网站的监控和分析不够全面。
此背景下,作者对以下内容进行了研究:统一目前国内 主要社交网站,采网络爬虫爬取数据;对取得的信息进行文 本挖掘、主题识别;采用三层组织体系结构模型对我国社交 网络的社交关系和舆论内容进行建模,并结合现实意义与图 论知识进行舆情分析。
1?监控与分析过程
通过对经典数据挖掘技术[2]的研究,结合其他学者在 WEB数据挖掘[3]方面的进展,本文提出了跨多个社交网络站 点的舆情监控与分析方法,其过程如下:
社交网络信息收集一主题识别一分类与聚类f模型构 建与分析
2?社交网络信息的收集
国内主要的社交网站都提供了开放式应用程序接口 API,但都有访问时间和次数限制。因此我们采用网络爬虫 爬取信息。采用GooSeeker开源工具对API读取的数据进行 补充,它可以根据确定的抓取目标,有选择地访问WEB页面 内容和相关链接,并且技术成熟、免编程、准确度高。提取 前应在Metastudio中进行的、对央视新闻官方微博页面中 抓取规则的映射,详细方法可以参考[4]。最终抓取的数据 以XML文件格式存储。
微博主题识别
进行舆情监控,我们需要知道每篇博文的主题是什么。
博文的主题识别过程如图1:
图1主题识别过程
分词和去除停用词处理。采用中科院的汉语词法 分析系统ICTCLAS进行处理。
权重处理。博文在统计权重前,用向量空间模型 (VSM)进行标示。一篇博文表示为D= (kl, k2,…,kn),其中ki为第i个词目;第i篇博文的权重向量表示为di二
(wil, wi2, ---win),其中wij为词目kj在第i篇博文中 的权重;将不满足阈值条件的高/低频词去除;权重计算公 式:
为词目在博文中出现的频次,N为博文总数,为博文集 合中出现该词目的博文数量。
相似度处理。可以采用余弦夹角相似度来考量博 文间的相关性,公式如下:
聚类处理。步骤如下:
Stepl:从N个博文向量样本{DI, D2,…,DN}中随机 取m个DI, D2,…,Dm作为起始中心。
Step2:以上面的m个样本为中心,将每个样本归类到 最相关的集合,标准是:如果,k=l, 2, ..m; i-1, 2,…, n且jk;则将Di纳入集合{ }
Step3:计算每个新集合的平均值向量:
其中中向量个数,;
Step4:计算停止判断函数,直到P不再发生明显变化,
否则转到Step2o
经过聚类处理,原有博文被归入为一定主题的类别,如:
城管暴力、神十上天等。
城管暴力、
神十上天等。
社交网络舆情发现模型与分析
在将博文进行了主题分类以后,再结合获取的其它社交 网络信息(不仅是博文文本内容,还有关注、被关注关系等), 采用一种三层传播网络模型对多家社交网络的舆情进行整 合。
4. 1三层传播网络模型
底层博主网络,其节点为注册于革社交网站的博主,其 间可以是关注、被关注、转发、评论等关系;中层站点网络, 节点是各个社交网站,其间可以是引用关系(用博主的关系 引发);上层主题网络,节点是聚类出来的各个主题,每个 节点向下可以对应涉及该主题的某几个站点。这样的三层结 构可以由图2示意:
图2三层玉清网络传播模型
4.2考量舆情传播的指标及其分析
可以采用下面的指标来反映舆情情况:
(1)博主节点扩散效度
我们首先来看博主节点扩散效度ef,它与回复增长率P、 浏览增长率R和被关注(入读)增长率D有关。首先,假设 统计周期为n天,对于第i个博主:
,其中为第i个博主第j天的被回帖总数;
,其中为第i个博主第j天的被阅读总数;
,其中为第i个博主第j天的被关注(入度)总数;
博主节点扩散效度:。
由此可知,在周期内,博主的博文吸引的回复/阅读/被
关注数增长越快,其扩散效度越高。
(2)站点扩散效度
一个站点下、与上层某主题相关的博主有多个,其最大
值记为EF,站点入读增长率记为SD,这样站点扩散效度sm=
(M+SD) /2o
(3)主题扩散效度
一个主题会有多个站点涉及,因此把
原创力文档

文档评论(0)