- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
微博集群行为舆情感知大数据挖掘机制研究
微博集群行为舆情感知大数据挖掘机制研究 [提要] 海量微博集群行为大数据环境下,如何感知微博用户的情绪变化,如何掌握微博集群行为舆情预警方法,成为维护社会稳定和政府执政安全的重要议题。本文提出基于舆情语义感知的微博集群行为大数据挖掘方法,通过计算微博舆情语义倾向相似程度,基于大数据并行挖掘技术进行舆情分析
关键词:微博集群行为;大数据挖掘;舆情语义感知
中图分类号:TP393 文献标识码:A
收录日期:2016年3月21日
一、引言
当前,异军突起的新媒体――微博逐步成为最具影响力的信息分享社交平台,由此带来的微博评论与微博转发等行为也衍生出海量的数据信息。国内外学者据此对微博舆情进行研究,如Saki.Knafo强调美国总统竞选中奥巴马对twitter的使用,Mili论证了微博影响危机信息传播的程度,任立肖等提出的舆情预警系统Web数据挖掘技术,朱晓峰等探讨微博舆情监测K-Means聚类算法。上述模型与方法对发现微博热点话题、跟踪事件动态、预警危机事件都具有重大意义。但当前研究多利用文本挖掘来实现网络舆情的预警,而在海量网络数据处理中采用并行计算与分布式处理技术,同时辅以基于大数据态势决策分析对网络突发事件进行跟踪与监督的研究很少。面对微博大数据与日俱增的语义文本,采用传统的机器学习方法难以对上述文本内容的语义关系与舆情倾向进行深度挖掘,该问题也成为当前舆情挖掘研究的热点问题。在舆情的倾向性挖掘方面,基于舆情语义上下文的挖掘方法得到了较为广泛的应用。本文在舆情挖掘过程中引入了微博舆情语义感知方法,充分考虑微博文本舆情语义上下文分析的模式特点,同时借助Hadoop并行算法提升了微博集群行为大数据环境下的并行挖掘性能,取得了较好的实验测试效果
二、方法描述
本文首先对基于舆情语义感知的微博集群行为大数据挖掘方法进行细致描述。在微博舆情挖掘系统中,假设存在微博用户组M、舆情信息S、微博舆情语义信息Context以及微博用户间的信任关系TU,采用协同挖掘方法计算目标用户ui对舆情信息Sj的倾向,然后按计算结果的高低进行排列,挖掘出倾向得分高的舆情信息,基于舆情语义感知的微博集群行为大数据挖掘主要包括如下几个步骤:
(一)舆情语义表示。假设微博用户的情境信息存在用户发布微博的位置L、发布时间T等n种不同类型的情境信息,本文记为Contexty=(C1,C2,…Cn),向量Ck(k=1,2,…n)则表示微博用户的某种具体情境,则存在:ItemRatingContext=(Item,Context1,Context2,…Contextn)。设某微博用户的两种不同情境向量为Contextx、Contexty,则可将用户上述两种情境的相似程度表示为Sim(Contextx,Contexty),即表示该用户在发表某微博时Contextx和Contexty的情境相似程度,记为:
根据计算的微博舆情倾向评分的高低对微博舆情信息进行排名,当微博用户的舆情语义与已进行微博舆情倾向评分用户的舆情语义相似度Simi(ItemContext,ItemRatingContext)最为接近时,则说明该舆情倾向为本次挖掘的最佳结果
(四)Mapreduce化的大数据并行挖掘机制。为提高对微博集群行为大数据的挖掘性能,本文通过在Hadoop云环境来对微博集群行为大数据进行MapReduce化的并行挖掘,具体步骤主要包括:Step1:将输入MapReduce的微博集群行为大数据文件分解为N个任务;Step2:通过主控程序Master将N个微博集群行为大数据处理任务分配到MapReduce空闲的Worker节点;Step3:对每一个Map的微博集群行为大数据处理任务进行数据预处理,通过Map函数接收处理后的关键关键字Key;Step4:通过Map函数存储计算得出的中间结果,使用主机程序Master定时将信息传递到Reduce子任务节点;Step5:得到Master处理任务后,执行Reduce子任务的节点通过远程程序读取Map上的缓冲数据,通过Reduce函数输出关键字Key和相对应的计算结果集合;Step6:为用户输出R个计算完成的Map和Reduce舆情大数据处理结果,并进行信息整合
三、方法验证
为对本文基于舆情语义感知的微博集群行为大数据挖掘方法进行验证,本文将实验的MapReduce环境搭建在具有9台服务器的Hadoop平台上,其中安装系统软件的服务器为NameNode(Lenovo服务器,4G内存,IT硬盘,2.8G主频,命名为Hadoop),其余8台服务器为DataNode,命名为hadoop1,hadoop2,…hadoop8,采用redhat5.5-x64安装VMware虚拟机的Linux
您可能关注的文档
- 审美在中学语文教学中的作用.doc
- 审计机关绩效管理措施解读.doc
- 审计权的法律保障机制解读.doc
- 审计风险模型中检查风险影响因素研究.doc
- 家事代理在民法典中的定位研究.doc
- 家猫mtDNA多态性研究及法医学意义.doc
- 家校合力培养中学生良好行为习惯.doc
- 容器造型课程对学生创意思维的提升.doc
- 家长式人力资源管理模式的应用.doc
- 宿州市道路名称及地标建筑名称翻译实践.doc
- (国企建筑行业、国有企业党委)2025年上半年思想政治工作开展情况自查自评报告.pdf
- 国有企业党委关于落实意识形态工作责任制情况的报告+国有企业党委关于理论学习中心组学习工作情况的报告.docx
- 2025年在市委理论学习中心组专题学习《关于完善中国特色现代企业制度的意见》研讨会上的交流发言.pdf
- 2025年领导干部党校学习个人党性分析材料+班子成员、副局长选人用人专项整治党性分析报告.pdf
- 2025年国企巡视巡察专题民主生活会会前谈心谈话记录+乡人大副主席巡察整改专题民主生活会个人发言(落实党的路线方针政策和党中央以及省委、市委重大决策部署情况等四个方面).docx
- 县委书记、领导干部2025年现实表现鉴定材料.pdf
- 2025年8月 关于传达中央城市工作会议精神的讲话提纲.pdf
- 高校《中国共产党普通高等学校基层组织工作条例》贯彻落实情况报告+在市高职院校基层党务干部队伍建设专题推进会上的讲话提纲.pdf
- 国有企业党委关于落实意识形态工作责任制情况的报告+国有企业党委关于理论学习中心组学习工作情况的报告.pdf
- 2篇 在“八一”建军节退役军人代表座谈会上的讲话.pdf
最近下载
- E+H恩德斯·豪斯 Liquicap M FTI52电容液位开关操作手册.pdf VIP
- CNAS产品质量手册.docx VIP
- 食品安全管理体系培训ppt课件.pptx VIP
- 串联质谱技术新生儿遗传代谢病筛查讲义.ppt
- 体例格式12:任务7教学单元7工学一体化课程《windows服务器基础配置与局域网组建》之教学单元活动方案.docx VIP
- 2016年会计培训课件-《增值税会计处理规定》财会[2016]22号.ppt VIP
- 15MR201 城市道路-沥青路面 .docx VIP
- SHS 01030—2019 阀门维护检修规程.docx VIP
- 第10课 当代中国的法治与精神文明建设 教学课件(共29张PPT)——高中历史人教统编版选择性必修一.pptx VIP
- CJJ 143-2010 埋地塑料排水管道工程技术规范.docx VIP
文档评论(0)