- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于大数据的灾害期间用户提及行为分析
摘要:当今大数据发展迅速,社交网络也成为人们日常使用的媒介,用户在虚拟网络中产生的大量数据有助于研究灾害问题,提升相关部门控制灾害的效率。本文基于暴雨期间的微博数据,对用户提及行为规律性进行研究,并分析社交平台内用户的提及行为对解决暴雨演变过程中并发问题的有效性。
关键词:提及行为灾害社交网络大数据
中图分类号:p208文献标识码:a文章编号:1674-098x(2019)02(a)-0151-03
社交媒体数据规模和差异的不断扩大,可为预测事件发生前的未来结果提供新思路[1-2]。andrewcrooks基于从twitter挖掘的大量数据,克服了社交媒体不能像地震仪一样提供地震级别的衡量标准这一缺陷,并确定了地震的波及范围[3],充分展现了社交媒体对灾害研究的帮助。
在用户行为分析方面,linnali等基于twitter中用户创建的地理数据与发布的照片,揭示了这些人的社会特征[4]。2015年minh-ducluu等人比较了转发与提及两种行为与用户使用标签的相关性,发现提及行为更占优势,因此能更高效地反映用户交互与行为[5]。
在突发事件中,以相关性强的用户为对象研究其行为会更有意义。本文以新浪微博为数据挖掘对象,通过构建网络分析组件属性,发现用户提及关系在暴雨研究中的有效性。
1实验方法
本文以2012年7月北京特大暴雨為研究对象,通过微博提供的api搜集暴雨期间的微博数据,从中筛选出带有“@”的信息并据此构建提及网络与组件,分析暴雨中用户的行为规律。
1.1数据搜集与处理
以“暴雨”为关键词通过网络爬虫和新浪微博api爬取暴雨相关信息,并经过去重等预处理得到24855条有效数据。据此筛选出兴趣时间段2012-07-21-06到2012-07-24-04的16759条数据。之后去除这些数据中含有转发标志“//@”的文本,从所有数据中识别出6529个被@的用户名,作为构建网络的基础。另外,从处理后的数据中抽取500条进行采样分析,经过人工分类发现询问朋友情况与描述暴雨相关经历的微博占比超过60%,表明处于提及关系中的用户多数与暴雨有直接或间接联系。
1.2网络构建
本文通过对社交网络中带有“@”的信息进行提取与分析,以有向图的方式创建了一个以用户为节点,以用户间提及关系为边,且具有连接关系的提及网络。此网络中包含6530个节点,4811条边,2108条含提及关系的微博,1825个组件。在处理组件时主要分析节点分布、微博数、平均度、聚集系数、网络直径这五种属性,通过组件内部特征反映灾害趋势。由此形成的具有分析价值的两大组件将在第2节详细阐述。
发布者与提及关系通过有序对(v,e)表示,可构建有向图g(v,e),v的出度表示为d+(v),是e中具有原点v的链接数;v的入度表示为d-(v),表示与被提及用户的链接数。同时,网络中包含多个组件,一个组件由节点v与边e构成,任意2个节点间有通过边连接的可能性。当一群节点互相连接且不与其它节点关联时,这群节点形成组件。
2结果与分析
2.1网络与组件
可从网络和组件的角度宏观分析暴雨中用户所发微博的规律、网络空间中提及行为的诱因。并判断信息传播的方向以及在网络空间和地理空间中的形式。
根据1.1所述方法从网络中随机抽取微博并进行人工分类,数量较多的类别为:询问朋友情况(36%),描述暴雨相关经历(31%),提醒朋友注意安全(7%),祈祷朋友安好(3%)。分析四种类别可知,暴雨发生时被提及用户的位置基本都在暴雨发生地;同处于暴雨中的用户可能在事件发生时或确认自身安全后使用微博来提及对方;同在北京的用户会因共同经历暴雨互相提及,北京以外地区的用户会发布微博@自己担心的朋友。可看出用户提及关系有助于信息在暴雨发生地、暴雨以外地区双向传播的。
按1.2过程形成的1852个组件中节点数与微博数差异较大(图1),其中多数组件内用户数为2~12人,节点数为2的组件有1015个,与正常情况下用户一条微博只提及一人的情况相符。总结发现,除去提及自身的用户,组件内节点符合幂律分布。另外,含不同微博数的组件数量也存在差别,几乎所有组件(1777个)只含1条微博,表明用户很少使用微博交流讨论,即暴雨发生时微博中用户交流较少。组件基本情况如表1所示,两大组件将在2.3中详细分析。
2.2组件属性
此小节计算的组件平均度、平均聚集系数、网络直径是2.3中分析组件的基础。
(1)在计算平均度时,以节点数为纵坐标,以组件内平均度为横坐
文档评论(0)