- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
互联网公众舆论安全检测系统的研制与应用
可
可行性报告
1.立项的背景和意义
根据最新的统计数据,我国网民数量已经超过4.2亿,居世界第一位。如此数量庞大的网民群体,加之以自由言论的网络氛围和形态丰富多样的网络媒体形式,造成了互联网XX量的舆论话题。互联网上的话题和传统媒体上的话题有很多区别,最大的不同就是传统媒体上的报道往往是单向性的信息发布,而互联网上的话题往往具有突发性、直接性、丰富性、互动性、偏差性的特点。对于政府来说,这些数据中蕴含着大量的信息。正确合理利用这些信息,可以有效地了解民情民意,从
2/13
而快速与时处理一些突发性公共危机事件,改进我们的管理和服务,促进社会的和谐、稳定和发展。
互联网上的讨论和文章很多。对于政府来说,一方面,网民会在互联网上发表自己对政策以与政府部门的观点、意见和看法。这些观点信息能反映出那些好的、受人们拥护的政策,也包含许多针对性的批评(如:对于医疗事故的曝光和医院服务的批评),对尚待改进问题的建设性的意见(如:对如何优化公共交通的建议、对医疗社会保障的制度的建议、对中小学教育改革的建议等等)。
另一方面,我国正处于经济发展的黄金期和社会矛盾的多发期和凸显期。一些看似平常的小事往往会酿成群体性事件。群体性事件,尤其是经过互联网的传播和放大,往往造成激烈的冲突对抗、严重的破坏性后果和恶劣的社会影响。如今网络上已经出现了一些矛盾很尖锐的公众舆论话题。这些话题很容易被强烈地放大,网络舆论从而成为了左右公众观点的很大的力量。
因此对这些富含信息的话题和文章,特别是那些可能影响社会稳定和谐的敏感话题,政府需要第一时间了解信息,发现问题,尽快地解决问题。这对提高政府管理和服务水平意义重大,对于社会的稳定和发展意义重大,对于社会的发展和进步意义重大。另外,对于互联网上的恶意扭曲,扩大和传播不良信息的行文也能在第一时间进行打击,从而维护社会稳定和谐。
3/13
2.国外研究开发现状和发展趋势
传统的网络舆情监控系统通常分为网络异常监测和常规趋势预测两方面。实际上,网络异常监测对于政府部门更为重要。因此,我们主要关心的是网络异常监测方面。针对网络异常监测,一般采用数据流高频项检测技术。该技术首先对所采集的关键词语料集进行必要的分词,然后对提取的关键词进行统计、聚类和人工分类,最后得到舆情关键词。在此基础上,针对所选的舆情关键词进行频度曲线绘制,针对关键词频度曲线进行必要的突变分析和关联分析。突发检测(BurstDetection)算法是针对关键词频度曲线的突变性分析的有效方法。
目前国对于文本数据的突发性检测研究尚处在初级阶段。国际上对文本词频的突发性建模
(burstiness)多用DirichletCompoundMultinomial(DCM)模型。最新的方法是采用DirichletCompoundMultinomialLatentDirichletAllocation(DCMLDA)模型将话题检测和词频突发性检测结合在一起进行建模。
这种基于词频的方法在话题发现方面多采用聚类算法。这种方法的缺点是:往往对网民评论的情感因素关注不足,而且通常是停留在热点话题发现的程度,没有进一步根据倾向性进行区分。最新的方法将自然语言理解技术中的文本倾向性分析技术引入舆情监控系统之中。该方法首先通过自然语言处理的分词技术得到热点话题和与热点话题有修饰关系的词语,然后基于词语倾向性词典对热点话题的修饰部分进行特征提取,最后使用机器学习的方法区分公众舆论对热点话题的情感倾向。
已有的文本倾向性分类研究主要有以下三类方法,这些方法在解决一些特定问题上已经取得了不错的效果。第一种是基于机器学习的传统方法,将统计分类技术应用于文本倾向性分类。PangBo等人提取了包括词汇、词性、多元组等特征,用多种分类器设计方法进行了对比实验。第二种是基于语义的方法,先提取文本中代表情绪倾向的词汇,再对其进行统计计算,根据特定公式得出倾向性得分,这可以参考Turney的工作。他以点互信息PMI判断词汇倾向性并对所在文本进行了倾向性判别。第三种是结合了前两种的方法,以文本中倾向性的词汇为基础,量化得到特征向量训练分类器。在朱杰的工作中,他用基于评价对象和情感特征的文本向量模型,通过TSF-IDF加权方法,得到的文本情感倾向分类方法取得了不错的结果。相对于前两种方法,这种方法出现较晚,但由于综合了两者的长处,效果要好一些。
综上所述,从算法角度看,目前的研究算法在短文本的分类,倾向性分析方面,在垃圾文章的过滤等方面还远远不够。另外,从系统的设计和实现角度看,目前已有的互联网舆
文档评论(0)