- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络舆情热点发现与跟踪研究
[摘 要]网络舆情监控系统中的原始数据处于报道层,分析和处置的对象则位于事件层。针对这两个层次间的差距,本文首先研究事件、话题、报道三者间的关系,提出使用话题发现与跟踪技术归类不同话题,提高信息呈现的有序性,提升事件发现及分析的效率。针对话题发现生成话题重要程度难以区分的问题,通过研究网络中热点话题的典型特征,提出了一种热点话题评价模型,该模型可以对话题发现生成的不同话题计算其相对热度。研究了网络舆情热点发现系统的设计方法。针对高效数据采集的需求,设计并实现了分布式的主题爬虫。针对于大量非结构化数据存储的需求,将非关系型数据库运用到系统实现中。
[关键词]网络舆情;话题发现与跟踪;文本聚类
中图分类号:TP391.1 文献标识码:A 文章编号:1009-914X(2015)30-0114-01
一、引 言
随着网民数量的增多,互联网资源的增加,网络媒体己经成为事实意义上的第四媒体,其影响也日趋深入于人们的日常生活。研究如何提早发现网络上的热点话题、敏感事件,并根据有关情况实施恰当的处理措施,成为了相关部门函待解决的一个问题。本文在基于相关的网络话题发现和追踪、热点话题发现以及搜索技术的研究基础上,研究如何实现自动热点话题发现与追踪,并基于以上技术实现网络舆情热点发现系统。该方法有助深入分析研究互联网舆情,实现热点信息、敏感信息的主动发现,为决策制订提供辅助信息;在提升互联网舆情的管理和控制,重大事件的应急响应能力方面能够发挥积极作用。
二、系统概述
1.1 数据采集功能
由于系统处理的是网络数据,首先需要实现对网页数据的自动收集功能。数据采集由指定页面开始,通过网页中的超链接访问指向的页面,收集到新的网页后重复获取链接访问页面的过程,在此过程中收集符合需求的网页数据。本系统中将新闻内容作为分析处理的数据来源,将采集的范围限制在指定网站的新闻板块。
信息采集是系统的基础功能,后续的相关分析处理都基于信息采集的数据来源进行。没有迅速、高效的信息收集就无法做到及时、准确的舆情分析。因此该信息采集部分一方面需要实现高效率的数据收集,另一方面需要覆盖足够数量的数据源,以保证数据收集的广度。
1.2 数据预处理功能
在本系统的处理过程中,数据的最初来源是网页。由于互联网的国际化特征,网页根据开发者的选择,往往遵守不同的字符编码规范,在处理之间需要将不同编码的页面转换为统一的字符编码。另外,网页数据是一种半结构化数据,一个页面除了待处理数据以外还包含其它的各种内容,如图片、视屏、链接、广告等,而且相关部分在HTML描述中缺乏足够信息表示其意义。因此,我们需要一种方式将系统所需的部分从网页中提取出来。该部分主要的功能就是将非结构化、有噪声、编码不统一的网页原始数据转化为结构化、内容规范、编码统一可由后续模块直接处理的数据。
1.3 舆情分析功能
这是舆情分析系统的核心部分,其功能根据需要可以包括热点话题识别、敏感话题识别、主题跟踪、趋势分析和预警等功能。根据实际项目需求,本系统集中于实现话题识别跟踪和热点话题发现两项功能。
热点话题识别是基于话题识别与跟踪的结果实现的功能。热点话题识别在产生己经归类的不同话题结果上,对各个话题的“热度”进行打分。通过对于话题“热度”的排序,给用户对于不同话题重要程度的判断一个相对的参考值,帮助用户分析出当前舆情信息中值得关注的主要话题。
1.4 数据存储功能
热点话题发现与追踪是一个依赖于大量数据分析处理得到结果的过程,因此系统需要有稳定的数据存储模块。本系统中,数据库作为数据流的中心,提供给各个相关模块数据存储、数据备份和数据交换的功能。通过与数据库进行交互能够避免各个模块设计设计单独的调用接口,有助于减少模块的祸合度。
三、系统实现方法
2.1 数据采集和预处理
该模块实现数据采集和数据预处理功能。数据采集通过网络爬虫实现。网络爬虫根据用户需求定制采集标准,从指定的URL开始,通过页面之间的相互链接,有选择性地自动获取页面。网络爬虫需要实现的基本功能是页面下载,除此以外,爬虫需要实现网页信息抽取,URL的抽取、过滤、排序等相关功能。从结构示意方面来看,典型的爬虫包括下载模块,调度模块,URL队列三个模块。
其中下载模块实现页面下载,URL抽取,正文抽取功能。由于页面下载是阻塞时间较长的IO任务,该模块往往使用多线程技术或以异步IO以提高性能。对于获取的页面,由于网页中一般会包含有和页面主要内容不相关的图片、链接和文本内容,因此该模块需要应用用户配置的模式从页面中去除噪声并抽取出URL和网页正文。对于大量的网站定制相应的正文抽取规则是一项非常消耗人力的工作,当
文档评论(0)