微博集群行为舆情感知大数据挖掘机制研究.docVIP

下载本文档

7
0
约3.01千字
约 6页
2017-06-28 发布于福建
举报
版权申诉

微博集群行为舆情感知大数据挖掘机制研究.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

微博集群行为舆情感知大数据挖掘机制研究

微博集群行为舆情感知大数据挖掘机制研究　　[提要] 海量微博集群行为大数据环境下，如何感知微博用户的情绪变化，如何掌握微博集群行为舆情预警方法，成为维护社会稳定和政府执政安全的重要议题。本文提出基于舆情语义感知的微博集群行为大数据挖掘方法，通过计算微博舆情语义倾向相似程度，基于大数据并行挖掘技术进行舆情分析关键词：微博集群行为；大数据挖掘；舆情语义感知中图分类号：TP393 文献标识码：A 收录日期：2016年3月21日一、引言当前，异军突起的新媒体――微博逐步成为最具影响力的信息分享社交平台，由此带来的微博评论与微博转发等行为也衍生出海量的数据信息。国内外学者据此对微博舆情进行研究，如Saki.Knafo强调美国总统竞选中奥巴马对twitter的使用，Mili论证了微博影响危机信息传播的程度，任立肖等提出的舆情预警系统Web数据挖掘技术，朱晓峰等探讨微博舆情监测K-Means聚类算法。上述模型与方法对发现微博热点话题、跟踪事件动态、预警危机事件都具有重大意义。但当前研究多利用文本挖掘来实现网络舆情的预警，而在海量网络数据处理中采用并行计算与分布式处理技术，同时辅以基于大数据态势决策分析对网络突发事件进行跟踪与监督的研究很少。面对微博大数据与日俱增的语义文本，采用传统的机器学习方法难以对上述文本内容的语义关系与舆情倾向进行深度挖掘，该问题也成为当前舆情挖掘研究的热点问题。在舆情的倾向性挖掘方面，基于舆情语义上下文的挖掘方法得到了较为广泛的应用。本文在舆情挖掘过程中引入了微博舆情语义感知方法，充分考虑微博文本舆情语义上下文分析的模式特点，同时借助Hadoop并行算法提升了微博集群行为大数据环境下的并行挖掘性能，取得了较好的实验测试效果二、方法描述本文首先对基于舆情语义感知的微博集群行为大数据挖掘方法进行细致描述。在微博舆情挖掘系统中，假设存在微博用户组M、舆情信息S、微博舆情语义信息Context以及微博用户间的信任关系TU，采用协同挖掘方法计算目标用户ui对舆情信息Sj的倾向，然后按计算结果的高低进行排列，挖掘出倾向得分高的舆情信息，基于舆情语义感知的微博集群行为大数据挖掘主要包括如下几个步骤：（一）舆情语义表示。假设微博用户的情境信息存在用户发布微博的位置L、发布时间T等n种不同类型的情境信息，本文记为Contexty=（C1，C2，…Cn），向量Ck（k=1，2，…n）则表示微博用户的某种具体情境，则存在：ItemRatingContext=（Item，Context1，Context2，…Contextn）。设某微博用户的两种不同情境向量为Contextx、Contexty，则可将用户上述两种情境的相似程度表示为Sim（Contextx，Contexty），即表示该用户在发表某微博时Contextx和Contexty的情境相似程度，记为：根据计算的微博舆情倾向评分的高低对微博舆情信息进行排名，当微博用户的舆情语义与已进行微博舆情倾向评分用户的舆情语义相似度Simi（ItemContext，ItemRatingContext）最为接近时，则说明该舆情倾向为本次挖掘的最佳结果（四）Mapreduce化的大数据并行挖掘机制。为提高对微博集群行为大数据的挖掘性能，本文通过在Hadoop云环境来对微博集群行为大数据进行MapReduce化的并行挖掘，具体步骤主要包括：Step1：将输入MapReduce的微博集群行为大数据文件分解为N个任务；Step2：通过主控程序Master将N个微博集群行为大数据处理任务分配到MapReduce空闲的Worker节点；Step3：对每一个Map的微博集群行为大数据处理任务进行数据预处理，通过Map函数接收处理后的关键关键字Key；Step4：通过Map函数存储计算得出的中间结果，使用主机程序Master定时将信息传递到Reduce子任务节点；Step5：得到Master处理任务后，执行Reduce子任务的节点通过远程程序读取Map上的缓冲数据，通过Reduce函数输出关键字Key和相对应的计算结果集合；Step6：为用户输出R个计算完成的Map和Reduce舆情大数据处理结果，并进行信息整合三、方法验证为对本文基于舆情语义感知的微博集群行为大数据挖掘方法进行验证，本文将实验的MapReduce环境搭建在具有9台服务器的Hadoop平台上，其中安装系统软件的服务器为NameNode（Lenovo服务器，4G内存，IT硬盘，2.8G主频，命名为Hadoop），其余8台服务器为DataNode，命名为hadoop1，hadoop2，…hadoop8，采用redhat5.5-x64安装VMware虚拟机的Linux