基于文本挖掘技术的社会网络舆情分析框架刍议.docx

下载文档

0
0
约8.02千字
约 8页
2024-09-10 发布于湖北
举报
版权申诉
保障服务

基于文本挖掘技术的社会网络舆情分析框架刍议.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于文本挖掘技术的社会网络舆情分析框架刍议

钟瑞童

摘要：通过研究某知名演员偷税漏税事件的舆情走势，给出舆情分析框架，使用Word2vec模型分析人物关系，梳理事件背景，而后使用评论影响力指标筛选具有导向作用的舆论，再通过主题模型提取观点，分析舆情走势，并对不同主题观点下各类人群构成做量化分析。该分析框架有助于决策者迅速精准把握热点事件舆情，了解公众心理，反映社会风气。

关键词：舆情分析;观点挖掘;主题模型;word2vec模型

：G206.3???：A：CN61-1487-（2019）010-0134-04

一、引言

公众人物的一举一动对整个社会有很大的影响，人民群众的看法也反映了整个社会对于公众人物的认知和判斷。某知名演员每年的个人收入高达数亿人民币，在去年该演艺明星被曝出令人咋舌的天价片酬，并且“一阴一阳大小合同”公然偷税漏税等行业内幕也随之浮出水面。自某新闻从业人爆出该明星的阴阳合同之后，各职能部门和媒体就一直没有中断对于该演艺明星的调查。终于，在去年10月3日，该演艺明星偷逃税案件的结果正式公布，引发媒体关注。“央视网”报道税务部门依法查处该明星“阴阳合同”等偷逃税问题。此事一出，各类媒体争相报道，微博、知乎、朋友圈都充斥着各种评论和看法，该演艺明星偷税漏税事件成为引爆社会舆论的焦点。

本研究应用爬虫技术和文本挖掘技术和自然语言处理方法，对该明星偷税漏税事件的社会网络舆情实证分析框架进行研究。

二、文献综述

（一）社会网络舆情

从李津浩在《采写编》2017年第2期发表的文章《从社会公众事件看网络舆情引导》中，可以准确地总结出公众人物的定义、特点及其对舆论的影响。社会公众人物具有公众性、典型性、商业价值、社会影响力的特点，其中最典型的特点是其言行会对社会和公众产生的巨大影响力。如果公众人物的行为举止得当，凭借他们的高知名度，会成为社会发展好的方面的代表，给公众以积极的影响。公众人物如果言行不当，在新媒体这种环境下，极易引发众怒，舆论就会呈现一边倒的声讨批评，产生网络舆情。

在网络舆情的研究方面比较成熟、主流的分析方法主要有网络调查法、基于统计规则的模式识别方法、基于内容挖掘的主题检测方法等。以上几种方法均存在一定的局限性，一些新的方法应运而生。首先，在大数据时代的背景下，数据挖掘的方法已经在更大程度和更广范围应用到网络舆情的分析和研究之中。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。其次则是聚类（clustering）分析法，即根据对某种相似程度的度量，按照相似度将数据对象分组成为多个类或簇。聚类分析法已经被广泛应用于很多方面的数据分析研究中。最后则是社会网络分析法（SNA），即通过对个体之间的关系构建模型并进行描述，对这些模型中包含的结构及其对个人和整个群体的影响进行分析。我们可以将大数据应用到日常的舆情管理中，加强对各个网络平台的监管。大数据技术的发展为传统网络舆情的管理拓宽了视野，我们可以运用大数据对网站、微博、微信等网络平台进行监控，对信息数据的传播和动态进行实时分析，以便从瞬息万变的舆情信息中找准重点，合理分配有限的资源，提高舆情管理效率。

（二）潜在狄利克雷（LDA）分布主题模型

隐含狄利克雷分布简称LDA（LatentDirichletallocation），首先由Blei，DavidM.、吴恩达和Jordan，MichaelI于2003年提出，目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种典型的词袋模型，即它认为一篇文档是由一组词构成的一个集合，词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。它是一种主题模型，可以将文档集中每篇文档的主题，按照概率分布的形式给出;它是一种无监督学习算法，在训练时不需要手工标注的训练集，需要的仅仅是文档集以及指定主题的数量k即可;此外LDA的另一个优点则是，对于每一个主题均可找出一些词语来描述。本小组在文本挖掘技术层面上在文献的分类筛选中选择了LDA主题模型，LDA主题模型在国内的研究也已经较为成熟。苑东东、赵杰煜、叶绪伦（2018）在《结合深度学习的监督主题模型》中，万子玮（2018）在《基于主题词的微博用户兴趣模型研究》中提出结合深度学习的监督主题模型，利用深度网络强大的非线性拟合能力，建立文档主题分布与标签之间的映射，利用变分期望最大化（EM）和深度网络训练方法，共同完成贝叶斯框架下模型参数的更新，通过改变网络结构和激活函数的类型，用于分类和回归任务。在前人对LDA改进的基础上，将模型应用于微博用户兴趣的深度挖掘中，将模型的先验概率，更换为后验概率确定用户兴趣模型，提高了主题模型的计算效率，并且保证了主题兴趣挖掘的