基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究-.docVIP

 基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究-.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
 基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究-

基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究* 基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究* 引言   高校师生是网络利用率极高的一个群体,也是网络舆情的主要生成力量和影响对象。高校网络舆情的形成原因主要有三方面:一是由于国内外相关热点问题的触发,二是校内外突发事件的网上讨论,三是与高校师生利益密切相关事情的网上诉求。近年来,由于社会上网络舆情导致政府信任危机的事件不断发生,高校也逐渐重视了网络舆情突发事件的应对机制研究。同时,随着公安部对网络信息安全工作的逐步加强,高校利用自身技术优势,自主构建舆情监测系统并建立一套完善的应对机制正逐渐成为高校网络信息安全工作的重点。因此,在新形势下,遭遇突发事件,高校如何能以最快的速度收集网络上相关信息,跟踪事态发展, 及时向有关部门通报,防范网络不良舆情的快速扩散和演化,并建立相应的响应机制,实现对网络舆情的有效管理与控制,使健康的网络舆情成为维护高校稳定,推动社会文明发展的动力,已经成为当前亟需解决的重要课题。   高校的网络舆情信息主要来自两部分,一是内部独立的校园网络,二是外部开放的互联网络。随着高校校园信息化建设的深入发展,校园网中网站、论坛、博客等平台上信息资源数量呈指数级增长,仅依靠人工检索和信息发布审核的方式无法有效实现对网络舆情信息的监测,急需利用技术手段实现对海量网络信息的挖掘与分析,快速汇总成舆情信息;互联网上信息量十分巨大,通过垂直搜索引擎方式所获取的与高校相关的信息往往存在查全率不高的缺陷。高校网络舆情的监测,既要考虑信息采集的深度和广度,又要提高系统的精度与准度;同时对于发现的舆情信息,要能够做到快速定位,有效控制。本系统针对上述高校网络舆情监测工作的不足,并结合网络舆情传播特点,提出了构建高校网络舆情监测系统的整体方案,并探讨高校面对网络舆情在监测、分析、引导和反馈等环节的处理方法,从而形成完善的应对机制。   1 系统体系结构   高校网络舆情监测系统主要包括三个功能模块,分别是:校园网舆情信息采集模块、互联网舆情信息采集模块、网络舆情分析与预警模块,体系结构如图1所示。      图1 高校网络舆情检测系统体系结构   由于高校对校园网络具有较大的控制权限,一部分信息数据可利用各种信息发布系统的管理平台与数据库的访问权限来获取;另一部分可利用网络爬虫从网页数据中获取,系统基于Nutch搜索引擎技术对校园网内数据进行信息采集,采集的深度与广度都达到了较好的效果。对于互联网上的海量网络信息,如果采用垂直搜本文由论文联盟http://收集整理索引擎进行数据采集,所获取的数据质量不高,为此系统采用元搜索引擎技术来获取互联网信息,既提高了信息采集的针对性又扩大了采集范围。此外,对于某些特定的互联网网站,可以采取以上两种方式相结合的监测方式,同时采用网络爬虫与元搜索引擎技术,来提高系统的监测精度。 网络舆情分析与预警模块采用关键词特征库匹配方式和机器学习算法自动进行网络舆情监测,实现对舆情信息及时准确的发现,并与短信预警等系统接口实现对接,实现舆情信息的实时发送。   系统主要功能模块    Nutch搜索引擎与校园网信息检索   Nutch是一个开源的Java实现的Web搜索引擎,其在Lucene基础上添加了网页数据抓取功能,提供了构建搜索引擎所需的基本工具模块,包括网络爬虫、文本分析、分词工具、建立索引、搜索功能和结果过滤等。Lucene是一个高性能、可伸缩的信息搜索库,可为Nutch提供了文本索引和搜索的API,也可为应用程序添加索引和搜索功能,通过Lucene的数据库接口直接从数据库中取出数据,用API 建立索引并提供搜索接口。利用Nutch搜索引擎作为校园网舆情信息采集工具,不但可以缩短开发周期,提高开发效率,而且通过其内部的接口和插件机制可以实现对校园网数据的高质量采集。网络爬虫模块用来实现对校园网内网页文件的信息采集;Lucene接口实现与各种异构数据库的连接;利用Nutch的插件机制,采用POI插件和PDFBox插件来实现对Word、Excel、PDF等文档的读取。通过上述三种方式可以实现对校园网内多种异构数据源的信息采集。   2.元搜索引擎与互联网信息采集   元搜索引擎是建立在独立搜索引擎之上的搜索引擎。元搜索引擎没有自己的爬虫系统和索引系统,数据全部来自于不同的成员搜索引擎,元搜索引擎将用户的搜索请求转发给多个成员搜索引擎,对成员搜索引擎的查询结果进行筛选与去重操作后返回给用户。将元搜索引擎应用于系统可有效提高互联网范围内舆情信息采集的广度、精度和速度。各独立搜索引擎查询接口的格式和编码并不相同,首先要将元搜索引擎中的检索条件转换为各独立成员搜索引擎能够接受的格式,并通过

文档评论(0)

ouqiaoUU + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档