第5章 天问一号事件中的B站网民情感分析.pptxVIP

第5章 天问一号事件中的B站网民情感分析.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

天问一号事件中的网民评论情感分析;目录;天问一号是由中国空间技术研究院研制的探测器,负责执行中国第一次自主火星探测的任务。

情感分析,又称意见挖掘、倾向性分析等。是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。

;结合当前开放式的网络环境,对天问一号事件中某视频网站用户所发表的观点和评论等文本数据进行收集整理,并进行评论文本的情感分析,可以直观地体现网络用户对于天问一号成功登陆火星事件的情感倾向。

对于了解网络用户对于中国航天事业发展的认知度与认可度,有着一定的参考价值与可观之处。

;从“天问一号成功着陆火星”事件入手,爬取了天问一号发射与登陆火星前后的相关视频下的用户评论,组成评论数据csv文件,爬取的内容包括用户名、点赞数、评论内容、视频网址等。

评论数据的时间窗口从2020年4月24日至2021年7月7日,共爬取了10380条数据。

根据提供的评论数据,结合舆论分析的场景,对用户针对天问一号事件的情感表现进行分类,分类标签分为-1(表示负面评论)、0(表示中性评论)以及1(表示正面评论)。;“天问一号成功着陆火星”相关视频部分评论信息如下表。

;正面评论表达了网站用户对天问一号成功登陆火星的喜悦之感,同时表现出对中国航天事业的殷切期望与祝愿,对中国航天事业充满期待。

负面评论表达了部分网络用户对于天问一号成功登陆火星的不以为然,又或是对于视频形式、背景音乐等的反感。

中性评论则是网络用户对于该事件的客观评价与分析,既不过分吹嘘他国实力也不贬低自身国家成就,或者是表达自己对于太空宇宙的想象,又或是提出自身的疑问、建议等,没有明显或直接表现出自身的态度立场。

;分析目标;“天问一号成功着陆火星”案例流程图如下。;“天问一号成功着陆火星”案例主要步骤如下。

数据探索:通过可视化的方法分析不同情感类型的评论数量分布、每月评论量的变化和获赞数前10的评论的获赞数。

文本预处理:对抽取到的数据进行清洗、特殊字符处理、中文分词、停用词过滤和词云图分析。

构建模型与训练:将分词结果进行特征向量??,将数据集划分成训练集和测试集,并构建朴素贝叶斯模型进行分类。

模型评估:通过混淆矩阵、准确率、精确率等评价指标对模型分类效果进行评价。

;目录;案例中使用的数据是从爬取的有关天问一号成功登陆火星事件的相关视频下的评论数据,格式为csv文件。

使用pandas库中的read_csv函数读取数据集,对特征“类别”中的不同类型进行计数并进行计数。

然后使用Matplotlib库pyplot模块中的pie函数绘制不同评论类型的数量分布饼图。;从图中可以看出,在所有的评论数据中,中性评论占比49.95%,正面评论占比45.66%,负面评论占比4.39%。

正面评论占比远远高于负面评论,说明大部分的用户并没有对天问一号持有消极观念,并对中国的航天事业抱有期望。

同时也有相当一部分的网友持中立观点,并对天问一号事件发表了自己的看法和建议。

总体来看,用户对天问一号倾向于积极支持的态度。

;为查看2020年4月24日至2021年7月7日间每个月的用户评论量情况。

首先需要统计所涉及的时间范围,并删除时间不是2020-2021年的数据。

然后使用groupby函数和sum函数对“评论时间”列进行分组统计评论量,最后使用plot函数绘制折线图。;通过折线图可以看出,根据事件发展及评论量随时间的变化趋势,将用户评论时间分为5个阶段,分别为初始期,爆发期、骤减期、再次爆发期和平稳期。;数据集中有个特征为点赞数,点赞是指其他用户同意该用户的评论观点,点赞数则是点赞这个行为的数量,点赞数越多意味着持有相同观点的人越多。

为了解2020年4月24日至2021年7月7日间天问一号发射与登陆前后相关视频下用户文本评论中哪些评论获得的点赞数最多,即哪条评论的获赞数最多,以特征点赞数进行排序,并取其中排名前10的评论绘制柱状图。;从图中可以看出,排名第1与第2的评论获赞数均超出了一万。

排名第3的评论为“《天问》是中国战国时期诗人屈原创作的一首长诗。

除前3名外,第4名至第10名的获赞数相差不大。;数据清洗的主要目的是从业务和模型的相关需求考虑,筛选出需要的数据。

对于用户评论,有些用户如果对某个评论持有相同看法,如果不处理重复的评论直接进行建模会影响分析的效率。因此,需要对重复的评论进行去重,保留一条即可。

同时还可能会存在部分评论相似程度极高的情况,此类评论可能存在不少有用的信息,去除这类评论显然不合适。因此,为了存留更多的有用评论,只针对完全重复的评论进行去重,仅删除完全重复部分,以确保尽可能保留有用的评??文本信息。;经过观察数据,发现数据中存在空格、制表符、字母等特殊字符,这些信息对于模型的建模分析是无意义的,因此,在数据处理前需要先将这类特殊字符处理干

文档评论(0)

长情又很酷 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档