基于lda算法的微博主题特征挖掘.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于lda算法的微博主题特征挖掘 摘要:微博的传播热度研究对加强舆情监控、提高市场营销效率等具有重要作用。设计基于LDA算法提取微博主题特征,并融合热点话题等其他特征挖掘用户关系网络中的“隐形粉丝”信息,将传播深度和传播广度特征作为衡量微博传播效果的重要指标,最后结合BP神经网络建立微博热度预测模型。实验结果表明,加入间接用户关系网络信息和主题信息能够有效地提高微博热度预测模型的性能,在准确率、召回率等指标值上都有较好的提高,验证了算法的有效性。 0 引言 随着现代信息技术飞速发展,5G网络的普及,物联网、无人驾驶、VR等产业将迎来变革。微博作为互联网时代最重要的社交媒体软件之一,将会拥有更大的用户量、更快的传播速度以及更广阔的信息内容。微博现已成为社会舆情传播的新途径和集聚地,实时预测微博热度,对公众舆情监测、政府宣传、企业营销等具有深远影响。 微博作为消息的重要传播渠道,近年来对微博研究分析中,文献 1 特征选取 1.1 融合热点话题的内容特征 本文经过分词、去停用词等处理操作后,使用LDA模型提取微博隐含主题特征,并融合热点话题计算微博内容特征对微博转发热度的影响。 LDA(Latent Dirichlet Allocation) 图1中,θ 本文主要利用文档-主题矩阵,对于数据集文档集合D=(d 式中:c 1.2 博主特征 微博的传播特征不仅受内容特征还受博主特征所影响 如图2所示为微博博主之间的互粉关系网络图,User表示微博博主,箭头方向表示粉丝关注此博主。 本文通过社交关系网络关注度度量重要性,提取除博主直接关注层之外另5层深度的用户关注关系网络,设V 式中λ 2 联合双指标的微博热度度量 微博的传播特征包括传播广度和传播深度,传播深度和传播广度能较好反映出信息传播范围的大小 式中t 同样,对于平均传播深度t 式中:l表示转发层次;Respost Count 3 微博热度预测 本文通过微博文本内容特征、微博博主特征,并采用传播广度和传播深度双指标联合计算的方式设计关于微博热度值的度量公式。最后,结合BP神经网络,以新的度量模式作为优化目标,对模型进行训练。模型架构如图3所示。 经过不断反复实验,本文选择神经网络层数为4层,设置各层节点数为46×60×25×4。选择交叉熵函数作为Loss函数并添加正则项惩罚减少过拟合,公式如下: 4 实验结果与分析 4.1 实验数据 本文获取了新浪微博的原创微博共26 998条,涉及的源微博博主8 000多位。经过数据预处理、特征抽取后得到的特征集合如表1所示。 4.2 评价方法 本文实验的评价指标选择分类算法评价方法中常用的准确率P(Precision)、召回率R(Recall)、Macro-F 式中D表示数据集中的标签类别数,本文为4类。 4.3 参数调整 本文的参数主要有两类:一是针对LDA主题模型,经过实验测试,设置k值为40;二是针对BP神经网络模型,其中包含学习率、训练次数等超参数设定,优化方法和激励函数的选择。 1)为了避免其他参数的影响,先设置默认激励函数为sigmoid函数,优化方法选择Adam算法,batch size设置为50。结果如图4所示。 由图4可知,不同的学习率设置的模型准确率不同,总体来说,训练epoch次数在500,1 000,1 500,2 000时,设置learning_rate=0.008的结果都是最好的,0.01次之。其次随着训练次数的增加,准确率都呈现先升后降的趋势,可能是训练次数过多时,会由于过度训练而产生过拟合的问题,反而对结果产生负影响,因此实验时需要注意合理调整训练次数。 2)激励函数和优化方法的选择如图5所示。 从图5中可知,关于激励函数使用sigmoid函数最好,tanh和Re LU差不多。造成本文sigmoid函数更好的原因可能是由于整个特征维度不大,设计的网络模型层数较浅。在优化方法上,使用Adam方法比Gradient Descent、Adagrad效果更好。 4.4 实验结果对比与分析 将本文算法与其他5个算法进行实验对比。如图6所示,ours是本文算法,No-Topic是不考虑添加主题特征向量,输入至本文中的BP神经网络模型实验,对微博进行分类预测,No-relation是不考虑添加关注关系网络特征,对微博进行分类预测。SVM、Bayes和逻辑回归三个对比算法使用的是与本文算法相同的输入样本特征。 从图6中可知,对比模型No-Topic和模型Norelation,删除主题向量和关系网络特征对结果都有一定的影响,删除LDA主题向量特征后模型结果降低明显,说明微博内容所属不同的主题偏好对于用户的吸引力具有差异性,用户浏览微博时更趋向于关注他们

文档评论(0)

lgjllzx + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档