- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要 近年来随着的爆发,国内人群在网络上对于此类话题的关注程度逐渐增加,能否判断人群在当前时间节点是否有着较强的防疫意识,对于国家公共卫生事业有着十分重要的意义。因此本文选择微博热搜数据作为研究目标,尝试对于“”热点话题的热度趋势进行预测,并以未来热度趋势作为判断人群是否对有着足够的重视程度的依据。由于深度学习有着较强的学习能力与对非线性数据的拟合能力,并在处理时间序列数据上有着更强的优势,因此本文选择深度学习的方式对热度趋势进行预测与分析。
本文选择使用深度学习中具有较强序列建模能力的LSTM模型与TCN模型,并选用微博热搜榜“”热点话题数据为代表,分别建立LSTM模型与TCN模型,并根据预测结果进行分析比较。本文首先阐述了使用网络爬虫爬取数据的方式,并对LSTM模型及TCN模型理论知识进行说明,并进行分析比较,在完成比较后对于此类型热点话题进行了后续数据分析与分析结果总结。本文主要使用RMSE与热度趋势准确率为预测结果的评价指标,并发现LSTM模型相较于TCN模型在对“”热点话题热度预测上有着更好的性能。同时,本文发现此类话题的热度与上榜时间间存在一定关联,某些突发性事件也会对人群对此类话题的关注程度产生不同程度的影响。
关键词:;LSTM;TCN;深度学习;
绪论
1.1 研究背景与意义
随着互联网技术的发展与计算机水平的不断提高,越来越多的人选择使用互联网平台去获取自身期望的数据与信息,并通过互联网平台发表自己的看法。互联网逐渐成为人们对社会性事件、各类热点问题及突发性事件发表看法的主阵地。相较于报纸、个人网站等传统的信息传播平台,社交网络可以更好的进行用户间的情感交流与信息传播,使得单个账号的意见对社会舆论的影响程度扩大。影响程度越大的舆论,在微博热搜榜上的热度也就越高,上榜时间也就越长。
中国互联网络信息中心最新发布的第47次《中国互联网络发展状况统计报告》数据指出,截止到2020年12月,我国网民规模达到9.89亿,较2020年3月增长了8540万,互联网普及率达70.4%,2020年,我国互联网行业在抵御肺炎和常态化防控等方面发挥了积极作用。随着网民数量的不断增加,微博也伴随着这股浪潮迅速发展。微博历年用户规模如图1.1所示。
图 1.1 微博用户规模
伴随着用户规模的不断增长,微博作为一个集政治、生活、娱乐为一体的社交工具被越来越多的人所接受,微博正在成为一个实时传播能力强、影响力大的信息传播媒介。同时,由于微博对于实时数据、突发性事件的更新速度快,实时传播能力强,使得微博热搜所呈现出的热点事件集中体现出了当前一段时间内网络用户最关注的点。因此政府机构通过对微博热搜进行数据分析的作用就尤为显著。
对于热点话题的预测,本文选取了“”热点话题为着重点,主要通过使用Tensorflow搭建长短时记忆网络模型LSTM及时间卷积网络模型TCN,以历史“”热点话题当前时刻热度及当前时刻前两个时刻的热度为依据,预测某话题未来1个时刻的热度。长短时记忆网络是一种时间递归性网络,主要目的是为了解决长序列数据在训练过程当中可能出现的梯度消失与梯度爆炸的问题。“”热点话题热度趋势数据属于时间序列数据,在长短时记忆网络模型中将会有更加优良的表现。 综上所述,因为微博热搜数据的重要性与强代表性,对微博热搜数据进行更加深入、细致的研究,从微博每日热搜数据中寻找“”主题的数据间的关系,并预测某话题当前时刻的热度与它的下一时刻的热度间的趋势,是十分重要并且具有实际意义的。推测“”热点话题未来的下一个时刻的热度走向,并在民众对于某类型话题关注程度较低的时段给予适当的防疫知识宣传教育,是有助于阻止的传播,增强全体民众的生命安全的。
1.2 国内外研究现状
目前国外针对社交平台的用户行为研究多集中在针对用户评论的情感分析以及针对用户转发行为的预测等部分。目前国外大多数情感分析多集中在对于情感极性的判断上,即判断用户评论属于积极或者消极。 Y.Bengio[6]等人构建了词向量模型来根据语句中前后词汇间的关联关系去预测下一个词汇出现的可能性,他们构建了一个神经概率语言模型,通过给定的词汇以及该词汇前一个词汇去预测下一个词汇出现的概率。除了使用数据模型进行研究外,V.Svitlana[11]等人也发现了在不同的国家、社会中,因为语言、习惯等的不同会导致在不同社会中进行情感分类的依据是不同的,通过对不同性别及习惯的人群进行不同的情感分类可以有效提高分类的准确率。
相较于国外,我国国内主要通过对微博、百度热搜榜等社交平台进行人群情感分析等相关分析。Qiu Guang[1] 等提出了一种根据不同传播途径提取情感词语的情感极性判断方法,主要依据情感主题以及情感词语之间的不同关系来分析当前语句的情感极性,并提取出相应的情
文档评论(0)