基于自动分类网络舆情监测方法研究.docVIP

下载本文档

50
0
约4.11千字
约 9页
2018-08-30 发布于福建
举报
版权申诉

基于自动分类网络舆情监测方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于自动分类网络舆情监测方法研究

基于自动分类网络舆情监测方法研究　　摘要：当前互联网快速发展，网络社会与现实社会逐渐同步，网上网下事件的关联性提高，网络舆情也越来越能够及时反映现实社会中发生的事情。因此，网络舆情监测不仅能够了解民意，为相关决策部门制定方案提供参考，而且能够通过大数据分析，对突发事件进行及时预警。以互联网上微博、贴吧、论坛、新闻评论等信息作为对象，以实用性为原则，研究一种基于文本自动分类的网络舆情监测方法。该方法通过网络爬虫抓取互联网上的信息，并采用基于KNN算法的文本自动分类方式完成网络舆情自动分类，最后通过实验验证了该方法的实用性。　　关键词：文本分类；KNN算法；网络爬虫；舆情监测　　中图分类号：TP319 文献标识码：A 文章编号：1672-7800（2016）003-0133-03 　　作者简介：赵浚淇（1982-），男，上海人，硕士，上海市公安局助理工程师，研究方向为数据挖掘。　　0 引言　　随着互联网的飞速发展，尤其是当今“自媒体”时代的到来，每位网民都能够针对社会中的现象、问题表达自己的看法、意见及情绪，对网络舆情产生了巨大影响。据中国互联网信息中心发布的第36次统计报告显示，截至2015年6月，我国网民数量已达6.68亿。因此，在线下发生的事情，很快会被网民传到网上，线上线下逐渐形成一体化，一方面网上舆情可以真实反映民众对于各类热点事件的看法，另一方面互联网也成为突发事件报警的一个平台，互联网舆情监测工作愈发具有重要意义[1]。然而，当前网络数据量大，人工整理舆情不仅效率低下，而且容易错过预警的最佳时间，而舆情的自动分类监测是实现网络舆情监测的重要途径。　　当前，国内在网络舆情研究方向相对比较薄弱，舆情的分析工作不够智能。其中一个重要原因是网络数据作为一个动态的海量数据源，每天都有成千上万的新词汇、新表达方式出现，给原本相对困难的中文分词产生了较大阻碍[2]。本文以互联网上微博、贴吧、论坛、新闻评论等信息作为对象，通过网络爬虫及时获取数据信息，将获取的信息利用文本分类算法进行自动分类，对网络舆情进行实时监测。同时，本文提出对获取的数据信息进行结构化的设想，通过提取事件的时间、地点、发生事项等要素，并采用权重设计，按照事件的影响力和重要度，设置阈值对突发性事件进行自动预警。实验证明，该分类方法在网络舆情自动采集和监测方面有较好效果。　　1 相关工作　　网络舆情监测涉及机器学习、数据挖掘、数理统计以及自然语言处理等多学科领域知识，目前已取得一系列研究成果[3]。　　杨涛等[4]提出一种网络舆情热点追踪方法，并给出了一个基于舆情热点动态监测的算法，可以较好地抓住当下热点事件。但是，由于其只针对热点舆情，不能起到舆情全面监测的作用，故存在一定局限性。黄笑迪[5]等围绕现有的网络问政平台，结合政府部门的需求，给出了一种基于政府网站的舆情监测体系。该体系包括4个指标，舆情总体指标、问政排名指标、受众指标和互动指标，并人为对其按照重要性进行排序，能够在实际工作中帮助政府部门做好舆情监测工作。但是由于其研究对象局限于政府网站，因而不能完全反映网民观点，也不能做到针对突发事件及时预警。　　美国TDT系统提出了一种话题监测与跟踪的舆情监测方法，该项技术能够在互联网的海洋数据中找出定向的数据信息，并能够自动追踪给定方向的舆情信息及相关的外延话题，在当前定向监测领域有很好的应用，然而该系统对于未知突发信息的监测效果不佳[6]。　　此外，国内以企业级搜索平台为核心的舆情管理系统提供商邦富公司专门为政府开发了一套网络舆情监控系统，该系统提供了包括热点识别、倾向性分析与统计、主题跟踪、趋势分析、突发事件分析在内的多项功能，能够大大提高监测效率。然而该系统基于模式匹配，需要人工根据监测目标的变化定期更改设置，智能性较差。　　由上述分析可知，目前网络舆情自动监测工作有了一定的进展，但各种方法中也存在一定不足。本文针对现有不足，以实用性为原则，以微博、贴吧、论坛、新闻评论等信息作为对象，研究一种基于文本自动分类的网络舆情监测方法。实验显示，该方法的监测准确性较高，而且在监测信息量扩大、分类增多的情况下，其召回率呈上升趋势，因此本方法尤其适用于大规模网络舆情监测。　　2 网络舆情自动分类　　本文从网民发布的信息入手，通过网络爬虫及时爬取相关信息，按照本文设定的基于KNN算法的分类方法，自动进行分类，从而实现舆情自动分类。事先按照客观需求划定分类，并将各类表示成向量模型，新增的信息根据算法自动进行划分。　　2.1 数据采集　　本文通过网络爬虫针对微博、贴吧、论坛、新闻评论等信息进行及时抓取，但由于网页中内容繁杂，需要采集的有效信息只是其中一小部分，大量的干扰信息会影响采集工作实效。因此，将数据采