- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于搜索引擎关键词舆情过滤算法研究
基于搜索引擎关键词舆情过滤算法研究
摘要:网络舆情已成为社会情报的一种重要表现形式。对于性质恶劣(负面)的网络舆情信息,能否及时高效的挖掘出来对网络舆情监控具有十分重要的意义。针对目前舆情发现的时效性不足的问题,该文提出基于搜索引擎的关键词检索过滤算法,并在多线程环境下运行,充分利用索引查询的高效性,大大提高了恶劣舆情过滤的效率。
关键词:搜索引擎;舆情过滤;布尔模型;索引;lucene
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)06-1328-05
A Research of Algorithm about Public Opinion Key words Filtering Based on Search Engine
FENG Ru-xiao, LIU Zhi-ming, LEI Long-yan
(School of Computer Science and Technology, University of South China, Hengyang 421001, China)
Abstract: Net-mediated public opinion has become one format of social information. As to severe public opinion context, it is of significance for public opinion monitoring system to find that information timely and efficient. To deal with the problem of lacking efficiency of finding severe opinion at present, in this paper, a algorithm about keywords filtering based on search engine is designed and run in multi-thread environment. The algorithm makes use of index searching efficiency and improves productivity obviously in public opinion filtering system.
Key words: search engine; public opinion filtering; bool model; index; lucene
随着网络成为继报纸、无线广播和电视三大传统的传播媒体之后的“第四媒体”,网络舆情对社会的影响与日俱增。网络舆情成为最主要的社会舆情表述和传播方式之一。对于公司企事业单位,一些恶劣事件的披露很可能成为他们继续发展的绊脚石;对于社会,一些有损稳定,影响极为恶劣的言论很可能对社会造成极为恶劣的负面影响。由于这些信息往往呈现爆炸式增长,因此,舆情监控系统的一个重要目标即是及早的发现舆情发布源头,从而提醒管理者及时对其进行适当的控制。这就要求舆情监控系统最好能够做到在数小时甚至几十分钟之内能够抓取到新发布的舆论信息后立刻过滤出是否含有恶劣言论,这对舆情监控系统具有十分重要的意义。
目前舆情发现的方法研究可以基本归为两大类,一类是基于规则的文本内容关键词识别的方法【1,2】,一类是基于统计的机器学习文本分类方法【3~6】。第一类方法能够最大限度的在舆情未扩散之前的挖掘出网络中明显直接的舆情信息,但由于语义方面的局限性使得舆情信息的挖掘不够充分,第二类方法一般需要在一定数量的相关舆情记录出现后才能被挖掘,舆情信息的挖掘较为全面。目前有很多舆情监控系统采用这两类方法相结合的方式进行舆情监控[7,8]。
对于第一类方式,较为普遍,简单而有效的一种方式是预存储一些行业恶劣情感词库,比如高校教育行业里可设定自杀、罢课、贪污,猥亵等恶劣情感词,然后对从网络中抓取到的文本数据进行关键词字串正则匹配,匹配成功则过滤出一条舆情记录同时将匹配的关键词替换成高亮文本返回给用户。该方法虽然可行,但正则表达式的算法完成一篇文档的过滤需要对关键词集中每一个关键词进行循环匹配,时间主要消耗在循环调用、字符串匹配和文本高亮替换之上,算法效率较为低下,在一定程度上影响了舆情发现的时效性。该文提出基于搜索引擎的关键词查询过滤方法,能够最大限度的利用索引查询的高效性,把批量舆情信息过滤时间控制在较短时间内,较好的解决了恶劣舆情过滤的实时高效问题。
1 基于搜索引擎的关键词舆情过滤算法设计
在这一节中,先介绍搜索引擎背后的
文档评论(0)