公共网络舆情监测与信息处理平台开发探讨.pdf

公共网络舆情监测与信息处理平台开发探讨.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

公共网络舆情监测与信息处理平台开发探

作者:李成

来源:《科学与技术》2019年第4期

■李成

摘要:由于各种事件的刺激而产生,并且通过互联网传播的人们对于各种事件的所有认知、

态度、情感和行为倾向的合集,称为网络舆情。随着信息和网络技术的发展,人们可以自由地

在网络新媒体中发表关于社会中各种现象和问题的态度与意见等,以论坛、微博、博客等为载

体的网络新媒体已日益成为舆论传播和热点聚集的重要源头,舆论热点的多发、突发、频发也

已成为常态。为了加强公共部门网络的管理,开展公共部门舆情信息的监测与分析,已经成为

目前亟需解决的现实问题。公共部门舆情监测分析系统可以实现针对公共部门网络海量舆情的

实时监测分析,有效地解决以传统的人工方式进行舆情监测的很多难题。

关键词:公共部门网络;舆情监测;分布式;网络爬虫

1.引言

公共部门网络上,网络舆论主要是从新闻回帖、网络论坛、博客、网民聊天室等反映来的。

网络论坛是这其中最主要的平台,公共部门网络中也已经形成了一批著名论坛。论坛议题涉及

到政府建设建设的各个方面,其中既有一些合理化的积极建议,还有是对公共部门不正常现象

的披露,另有一小部分是发泄对现状的不满情绪。研发从海量公共部门网络信息中及时准确地

发现和搜集到工作需要的舆情信息的监测系统,可为政府部门提供了解百姓诉求的便捷渠道,

可有效化解公共部门“网络暴力”,有利于社会稳定。

2.网络舆情采集技术研究与实现

利用搜索技术自动地在网络上采集信息,将节约大量的人力物力成文,大大提高舆情监测

的工作效率和时效。搜索引擎(searchengine)是指根据一定策略、运用特定计算机程序从互

联网搜集信息,在对信息组织、处理后,为用户提供检索服务,将用户检索相关的信息展现给

用户的系统。

搜索引擎一般由索引器、检索器、搜索器和用户接口组成。搜索器的功能是在网络中漫游,

搜集和发现信息;检索器的作用是根据用户的查询在索引库中快速检索,对将要输出的结果排

序,进行相关度评价,并能按用户的需求反馈合理信息;索引器的功能是根据搜索器搜到的信

息结果,从中抽出索引项,用于生成文档库的索引表以及表示文档;用户接口的功能是接纳用

户查询、提供所需要的查询项、显示查询结果等。

搜索引擎工作流程可分为三部分:爬取网页、处理爬取的网页、提供检索服务。

(1)爬取网页:每个独立搜索引擎都有自己爬取网页的程序(网络爬虫)。网络爬虫根据

网页中的超链接地址,不断地抓取网页。被抓取的网页被称之为网页快照。因为互联网中应用

超链接非常广泛,理论上,给爬虫一定范围网页,就能搜集到大部分的网页。

(2)处理网页:搜索引擎抓取到网页后,还要做大量预处理工作,才能去提供检索服务。

其中最重要的就是建立索引文件,提取关键词。其他还包括去除重复网页、判别网页类型、中

文分词、计算网页的重要度、分析超链接。

(3)提供检索服务:户输入关键字进行检索,搜索引擎从索引数据库中找出匹配该关键字

的网页;为了用户便于判断,除了网页地址和网页标题外,还会提供一段来自网页的摘要及其

他信息。

通用搜索引擎采用的方式是语义上的搜索,是通过关键字的方式实现的,返回的结果倾向

于知识成果,比如新闻,论文,文章等等。大家经常使用的搜索引擎如:谷歌、百度、雅虎等

都是通用搜索引擎如今的杰出代表,他们为互联网的发展做出了重大贡献。搜索引擎所提供的

网络搜索服务目前是互联网上最重要的网络服务之一,搜索引擎也早已成为人们在网络中的

“导游”[5]。

3.话题追踪技术

话题追踪的目的就是,事先给出一个或几个关于某话题的新闻报道,找出关于该话题相关

的后续报道。它是TDT(话题检测与追踪)技术的重要子任务。它能够在众多的信息资源中,

帮助人们节约查阅和浏览新闻的时间,掌握一个话题的来龙去脉。话题追踪的定义是:根据文

本的内容,在给定的追踪体系下,自动确定文本关联的主题。用数学方法看,话题追踪将未标

明主题的文本映射到已有主题中,是一个映射的过程,因为一篇文本可以同多个主题相关联,

该映射可以一一映射,亦可是一对多映射。

3.1文本分类技术

话题追踪的基本思想是,把人工给定的几篇报道作为训练样本,采用一定的追踪公式对训

练样本进行计算和学习;当有新报道时,按公式计算报道的分数,根据指定的阈值,当分数大

于阈值时,判定新报道属于主题,否则判定报道不属于原主题。我们可以把话题追踪技术看为,

加上以下三个约束条件的文本分类技术:

1、把事先

文档评论(0)

肖必伟 + 关注
实名认证
内容提供者

随便说所

1亿VIP精品文档

相关文档