网络舆情信息监测法研究文献综述.docxVIP

下载本文档

64
0
约2.2万字
约 35页
2018-06-23 发布于福建
举报
版权申诉

网络舆情信息监测法研究文献综述.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网络舆情信息监测法研究文献综述

完整设计图纸请联系本人，参见豆丁备注。/lzj781219毕业设计文献综述课题名称：网络舆情信息监测方法研究学生姓名：学号：学院：信息科学与技术学院专业年级：计算机科学与技术专业11级指导教师：职称：副教授完成日期：二○一五年一月十五日文献综述1 前言公共危机事件爆发时，犹如以石击水，相关信息在短时间内迅速传播，引起群众的广泛关注。一些非理性议论、小道消息或负面报道常常在一定程度上激发人们普遍的危机感，甚至影响到群众对党和政府的信任，影响到消费者对某一企业品牌的认同。如不及时采取正确的措施分析和应对，会造成难以估计的后果。所以关注行业敏感舆情对于相关部门和企业来说非常重要。目前大部分部门和企业的舆情监测和管理工作主要靠人工来完成。这样负责网络舆情监测任务的部门和人员承受着巨大的工作压力。人工进行舆情监测还会遇到很多问题：√舆情收集不全面√舆情发现不及时√舆情分析不准确√信息利用不便利因此，经常出现涉及“与我相关”的舆情信息已经在网上快速传播，一些非理性和不切实际的信息传播开来，造成了很坏的社会影响，或者通过其他部门得到反馈，甚至领导都知道了，但是我们负责舆情监测的人员却毫不知情，失去了第一时间获取和掌握舆情，进而进行及时处理的时机；舆情事件发生以后，我们也缺乏有效的舆情分析手段，无法提供定性定量的数据用于舆情分析判断；目前完全靠人工进行舆情信息的收集和上报，费时费力效果不好，也无法提供更加有用的舆情统计分析数据，为领导提供辅助决策服务。在新的互联网形势下，需要借助互联网舆情监测工具，及时监测、汇集、研究判断网上舆情，引导舆论方向，化解危机舆论。跟踪事态发展，及时向有关部门通报，快速应对处理，变被动为主动，使网络舆情成为领导和相关部门决策的重要依据。利用舆情监测系统平台，配合相应的舆情工作机制，听取百姓心声，接受百姓意见建议，树立自觉接受群众监督意识。本次设计是由识别出的热门话题和敏感词进行主题信息跟踪，跟踪的具体内容包括：信息来源、转载量、转载地址、地域分布、信息发布者等相关信息元素；利用动态社会网络分析技术，以建模的方法将相关信息元素作为关键词整理为矩阵数据，对矩阵数据进行分析，绘制关键词网络图形，再进行社会网络分析中心度分析，对关系数据进行可视化呈现及量化分析，分析社会网络的进化行为，进行网络监测，同时运用社会网络变化检测技术进行图形相似度、图形模式识别，探寻敏感和热点问题及其相互关系，分析敏感人群的关系网络，进行网络异常监测和预测。2正文2.1 理论研究2.1.1信息检索技术信息检索（Information Retrieval）是指信息按一定的方式组织起来，并根据信息用户的需要找出有关的信息的过程和技术。信息检索有广义和狭义的之分。广义的信息检索全称为“信息存储与检索”，是指将信息按一定的方式组织和存储起来，并根据用户的需要找出有关信息的过程。狭义的信息检索为“信息存储与检索”的后半部分，通常称为“信息查找”或“信息搜索”，是指从信息集合中找出用户所需要的有关信息的过程。狭义的信息检索包括3个方面的含义：了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。按存储的载体和实现查找的技术手段为标准可划分为：手工检索、机械检索、计算机检索，其中发展比较迅速的计算机检索是“网络信息检索”，也是我们本次研究的重点。而在检索过程中，分类和聚类是经常被使用到的两种算法，下面，我们对聚类和分类算法分别加以介绍。聚类算法文本聚类主要是依据假设：同类的文档相似度较大，不同类的文档相似度较小。其主要任务是把一个文本集分为若干个称为簇的子集，然后在给定的某种相似性度量下，把各个文档分配到与其最相似的簇中。文本聚类不需要事先手工注明文档的类别，它实现了在无监督机器学习方法中自动化程度较高的聚类。近年来，在信息检索、多维度自动文摘、话题识别与跟踪等领域都得到了广泛应用。文本聚类是一个无监督的学习过程，因此相似性度量方法在此过程中起着至关重要的作用。下面是基于本系统实现对该技术展开的介绍：VSM（向量空间模型）、STC（后缀树）算法和Lingo算法。.1 VSM向量空间模型的基本思想是以向量来表示文本：（Wl，W2，…，Wn ），其中W1为第1个特征项的权重，那么选取什么作为特征项呢，一般可以选择字、词或词组，根据实验结果，普遍认为选取词作为特征项要优于字和词组，因此，要将文木表示为向量空间中的一个向量，就首先要将文本分词，由这些词作为向量的维数来表示文本，最初的向匿表示完全是0、1形式，即，如果文本中出现了该词，那么文本向量的该维为1，否则为0。这种方法无法体现这个词在文本中的作用程度，所以逐渐0、1被更精确的词频代替，词频分为绝对词频和相对词频，绝对词频，即使用词在文木中出现的频率表示文本，相对词频为归一化的词频