基于主题爬虫的三农舆情监测管理平台的开发与应用.docxVIP

  • 2
  • 0
  • 约6.34千字
  • 约 15页
  • 2025-06-09 发布于湖南
  • 举报

基于主题爬虫的三农舆情监测管理平台的开发与应用.docx

【摘要】近年来,涉农网络舆情事件突发、频发,对农业农村经济工作的影响日益深刻。建设三农舆情监测平台,密切关注“三农”网络舆情,有利于我们把握规律、发现问题、预判动向、有效应对,有利于我们抢占舆论制高点、掌握舆论主动权,为农业农村经济发展营造良好的舆论环境。本文主要分析了舆情系统的背景和发展现状,针对三农舆情平台的建设的架构、功能模块,以及在开发过程中所涉及到的网络爬虫技术、中文分词技术、文本特征提取技术、热词识别技术等进行分析和介绍,并通过案例进行分析。

【关键词】三农舆情监测;大数据;信息采集;热点词

1.引言

随着互联网技术的迅猛发展和信息传播方式的深刻变革,全社会已置身于包罗万象、瞬息万变的网络舆论舆情新格局之中。某个突发事件在网上刚一曝光,即可迅速引爆全国舆论,把地区性局部性和带有某种偶然性的问题,变成全民围观的公共话题。中央对媒体宣传和网上舆论工作的一系列部署,表明了中央对营造网络好环境、占领舆论制高点、构建媒体新格局、传播网络正能量的高度重视。各级政府部门高度重视网络舆情工作,不断加大工作力度、完善工作手段、探索工作机制。网络舆情监测平台在政府部门正确应对网络舆情、妥善处置突发事件中发挥了重要作用,成为政府部门加强网络舆情工作的重要抓手。

研究在基于主题爬虫技术研究的基础上,实现了三农舆情监测管理平台。该平台一方面提升工作技术手段以完成当前日益紧迫的舆情监测任务,另一方面为全面利用大数据技术开展“三农”舆情数据测监测和分析积累实践经验。平台通过监控网络重要的新闻站点、新浪微博、微信、重要论坛、博客来发现舆情信息。对发现的重大、敏感舆情通过专题进一步跟踪,通过各种数据源进行数据补充,为舆情的处置提供一定的依据。

2?研究内容

一般而言,舆情处理流程如图1所示,其中舆情系统主要负责发现重大舆情线索,全局掌控舆情散步、传播及扩散的态势,然后监控人员结合系统进行辅助研判,上报重大的舆情。

图1?三农舆情处理流程

围绕舆情处理流程,本着数据集中化、统计标准化、流程规范化、应用成熟化的建设原则,平台的总体架构设计如图2,分为数据采集、数据存储、数据分析和数据可视化呈现四大部分。

图2平台的总体架构

为了能够更好的保证数据和网络的安全性,对舆情平台服务器的使用进行了合理的分区,如图3所示,主要分为三个部分:采集服务器、数据库服务器和web服务器。

数据库服务器又分为三个存储库:原始页面库、结构化元数据库和舆情结果库。原始页面库、结构化元数据库都是离线存储分析库,舆情结果库是一个在线数据库。数据写入单行延时都要控制在10毫秒内,读取高性能要保持在毫秒级别。根据应用需求,舆情结果可以设置TTL,只提供近期数据的查询,较老的舆情自动过期删除。

图3??舆情服务器部署架构

采集服务器主要用来采集平台所监控的站点数据,将数据实时发布到数据库服务器中。数据库服务器用来存储采集的元数据,并执行内容去重、无用信息过滤及关键信息提取等,同时响应web管理服务器的舆情查询。Web服务器主要用于部署平台,为了可以支撑海量数据存储(TB/PB级别),高并发访问(十万TPS~千万TPS),访问延时低,数据存储在选型上我们选用了NoSQL来解决海量数据的存储访问。同时一天内,不同时间段爬虫爬下来的网页数也会有明显波峰波谷,所以数据库需要可以弹性扩展和缩容。

2.1基于主题的舆情数据采集技术

数据采集是舆情工作的首要任务,主要包括对主流网络媒体、微博、微信、论坛以及博客上涉及涉农舆情信息的监测和自动抓取。

平台采用主题爬虫技术实现了基于主题的舆情数据采集。主要原理是在搜索过程中只选择与三农相关的页面进行访问,在遍历web的时候,根据一定的网页分析算法过滤掉与三农主题无关的链接,保留有用的链接并将其放入等待抓取的url队列。为了保证对监控站点的信息采集做到不漏采,平台采用分布式的消息队列方式提高采集的并发度,流程如图4所示:

图4主题爬虫的工作流程

在舆情数据的采集策略上,为了防止对方网站的ip封禁,在进行数据采集时增加了ip代理,每次请求均会变化ip,降低网站的ip封禁;对重要的中央媒体、商业网站、地方重要站点等进行全站配置,并根据标记的更新频率调整采集频率;为了解决一些没监控站点的信息漏采,通过百度和360等搜索进行所有关键词的搜索结果进行采集,并与库中监控数据实时对比,来弥补定向监控的漏采问题;在采集时随着采集的数量越来越大,链接在入库的时候采用BloomFilter算法来提高判重的计算时间。

2.2?舆情信息的处理与分析技术

2.2.1网页去噪

网页是采用html标记的一种半结构化数据,从网页标签中提取正文文本,网页自动摘要之前就需要进行一次页面的去噪。尤其是获取的网页中存在大量与我们所关心内容无关的导航条、广告信息、版权信息以及调查问卷等被

文档评论(0)

1亿VIP精品文档

相关文档