涉税网络舆情监控和分析系统研究.pdf

摘要 摘要 互联网已成为各阶层利益表达、情感宣泄、思想碰撞的重要舆情渠道。同时,互 联网上所传播的舆论具有复杂性和多面性,网络舆情的发言者由于身份隐蔽且发言缺 乏有效监督,导致网络中的信息具有偏差性和欺骗性。网络舆情的这些特点为国家税 务机关的网络舆情监管工作带来了极大的挑战,因此如何对涉税网络舆情进行有效分 析及预警成为亟需解决的问题。 本文首先描述并分析了涉税网络舆情监控与分析系统的设计目标和功能需求,在 此基础上结合国内外类似项目建设方案和应用情况及涉税敏感话题的特点设计了系统 的整体框架图,并对系统实现的技术难点进行了分析。 其次,本文设计了一个针对网络舆情源数据获取的网络爬虫框架,其特点是可以 针对不同类型的网络舆情数据源设计不同的爬取策略,并综合使用异步l/o、进程池、 协程等多种并发编程技术,以实现更快的下载和处理网页。然后在该爬虫框架的基础 上分别实现了利用新浪微博开放平台API获取新浪微博数据的微博类网络爬虫和适用于 新闻和论坛类舆情源站点的论坛类网络爬虫。 再次,本文研究了税务类敏感话题分析识别与检测方法,将目标问题划分为税务 类话题文本分类和敏感话题识别与检测两

文档评论(0)

1亿VIP精品文档

相关文档