- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
建立基于Solr平台环境污染网络舆情监测系统
建立基于Solr平台环境污染网络舆情监测系统
【 摘 要 】 本文针对网络上通过微博、论坛等网络平台发布的环境污染相关消息的高效捕获,提出建立基于Solr平台的环境污染网络舆情监测系统,重点描述了基于Solr平台实现环境污染网络舆情监测系统的主要模块,并基于实际舆情数据对系统的功能和性能进行了分析。实验结果表明本文所述系统可有效满足环保部门等对网络舆情监测的需求。
【 关键词 】 Solr平台;舆情;监测系统
1 引言
近年来,全国各地环境污染事件频繁发生,当这些污染事件发生时,民众会在很短时间内通过微博、论坛等网络平台发布相关消息、描述事件发生状况、评论政府应对措施与各项反应,需要注意的是,这些舆情信息在网络上的传播,会对普通民众的群体心理造成重大影响,如果处理不当还会对环境污染防治工作带来阻力,甚至发生重大公共安全群体事件。因此,需要??计并实现面向环境污染舆情的网络舆情话题监测技术,以实现对环保类舆情信息的及时发现,为政务信息公开和网络舆论回应提供技术支持。
环保类舆情话题主要是民众对身边生活环境问题的描述、建议、举报和控诉等的话题,比如工厂偷排污水、工地夜间施工、空气污染严重等。这类话题可由相关关键词的与或关系组合予以监测,例如水污染的话题可以采用“废水、污水、黑水”等关键词匹配。但在实际实现时,每类环保类话题的关键词数量都较多,关键词之间的与或关系描述比较复杂,采用传统的数据库结合文本关键词匹配的技术会遇到处理速度慢、与或等复杂逻辑匹配实现难度大等难题。
针对这些问题,本文提出采用Solr平台设计并实现环境污染网络舆情监测系统。Solr是由Apache基金会设计开发的基于Lucene的文本检索平台,利用Solr的索引和检索功能够快速查找文本,并可实现较为复杂的查询逻辑。通过实际数据的实验验证,本文所述技术具有执行速度快、复杂匹配逻辑实现难度小等优点。
2 Solr平台简介
2.1 Solr概述
Solr是一个基于Lucene的企业级全文搜索平台,它支持层面搜索、高亮显示和多种格式数据输出等功能。2006 年,Apache Software Foundation 在Lucene项目的支持下设计实现了Solr平台,并使Solr成为Apache的孵化器项目。在整个项目孵化期间,Solr 稳步地积累各种特性并吸引了一个稳定的用户群体、贡献者和提交人,并于2007年1月正式成为Apache的子项目。
Solr具备高效灵活的缓存查询、强大的全文检索、垂直搜索、相似文献查找、配置灵活、支持多种客户端语言、索引复制、高亮显示搜索结果、日志记录、可扩展的插件体系等功能。
2.2 Solr体系架构
Solr作为一个完整的全文检索平台,具有三层体系架构。
1) 底层是全文检索工具Lucene,主要为文件建立索引、提供文本分析接口和实现高效查询。此外,底层的索引复制模块是一个独立的模块,主要用于支持分布式的索引和检索。
2) 中间层是Solr的核心层,主要包括索引处理部件和配置文件。最主要的配置文件是Solrconfig.xml和Schema.xml。Solrconfig.xml从整体上对系统进行了配置,例如索引的存放路径、字段的最大长度、写锁的超时时间、锁类型、是否压缩索引、内存索引缓冲区大小、合并因子、删除策略、自动提交策略、缓存设置等。Schema.xml主要是对索引的配置,例如分词器、字段名称、索引方法、存储方式、分词方式、唯一标识字段等。索引处理部件是在系统主动或被动的接受特定数据,按照配置文件转化成索引后用来进行实际操作的部件,例如,进行搜索、相似文献查找、拼写检查、分面检索等。
3) 上层是HTTP请求接受、处理和请求结果返回层。HTTP请求处理器根据接受到的不同请求,确定要使用的SolrRequestHandler,然后通过Solr核心层处理请求,并以XML、JSON等数据格式返回请求结果。
3 环保类舆情话题监测系统主要模块
本文所实现的环保类舆情话题监测系统的主要模块包括三个部分,分别是中文分词、创建索引和话题监测。
3.1 中文分词
中文自动分词是建立索引库的前提。中文文本中词与词之间没有天然的分隔符,这就要求在对中文文本进行分析前,需要先将整句切割成小的词汇单元,才能将文本划分为特征项并添加进索引库。在全文检索系统中,中文分词系统的速度直接影响到系统建立索引和检索文档的效率,所以需要从众多可用的分词工具包中选择符合本系统需求的中文分词系统。
目前常用的分词工具包有StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、ICTCLAS和IKAnalyzer,其中IK
文档评论(0)