《大数据架构与设计》课程报告讲解-社交平台谣言检测.pptxVIP

  • 0
  • 0
  • 约1.43千字
  • 约 10页
  • 2024-01-05 发布于浙江
  • 举报

《大数据架构与设计》课程报告讲解-社交平台谣言检测.pptx

基于多模态数据的

社交平台谣言检测

1

《大数据架构与技术》

任务介绍

01

文本

图片

标签

不要再随便买奶制品给孩子喝了❗️幼儿园都发通知了家长们注意:现在得白血病的小孩越来越多,妇幼保健院提示您,请不要给宝宝喝爽歪歪和有添加剂的牛奶饮料,告诉家里有小孩的朋友,旺仔牛奶、可口可乐、爽歪歪、娃哈哈AD钙奶、未来星、QQ星、美汁源果粒奶优菠萝味的。都含有肉毒杆菌。现在紧急召回。

1(谣言)

【男子遭遇电信诈骗银行门口上吊自杀】据河南电视台@都市报道,一个月前,周口的熊先生带着1万元来到新乡做小生意,没想到前天接到电信诈骗电话,把1万块钱通过农行汇给了骗子,受骗后向银行和公安求助。今早,因为想不开,他来到农业银行门口自杀。目前警方已经介入此事。

0(真实)

02

数据集介绍

真实推文样本数

虚假推文样本数

训练集

3568

3615

测试集

939

900

来源于微博

包含文本、图像、标签

谣言样本来源于微博官方辟谣平台确认的谣言

真实样本来源于新华社确认的新闻

03

算法选择

贝叶斯分类器

03

算法选择

SVM分类器

每个支持向量到超平面的距离:

最优化问题:

03

算法选择

多模态神经网络分类

文本特征提取:BERT

特征维度:768

图像特征提取:VGG-19

特征维度:1000

运行结果分析

04

模型

数据

特征提取

Accuracy

Precision

Recall

F1

bayes

text

10000维BOW文本嵌入

0.5993

0.9218

0.1971

0.3248

bayes

text

30000维BOW文本嵌入

0.6679

0.8913

0.3652

0.5182

bayes

text

34517维BOW文本嵌入(不限制)

0.6804

0.8839

0.3987

0.5495

svm

text

500维TF-IDF文本嵌入

0.6505

0.7747

0.4020

0.5293

svm

text

1000维TF-IDF文本嵌入

0.6772

0.8224

0.4332

0.5675

svm

text

5000维TF-IDF文本嵌入

0.6870

0.8968

0.4064

0.5594

svm

text

1024维Word2Vec文本嵌入

0.5846

0.7288

0.2394

0.3604

svm

text

512维Word2Vec文本嵌入

0.5977

0.7476

0.2673

0.3938

svm

text

128维Word2Vec文本嵌入

0.6000

0.7555

0.2684

0.3961

NN

text

768维Bert嵌入

0.8042

0.8253

0.7911

0.7919

NN

image

1000维VGG特征

0.6394

0.6312

0.6333

0.6323

NN

text,image

768维Bert嵌入,1000维VGG特征

0.8260

0.8159

0.8322

0.8240

运行结果分析

04

(1)深度学习算法的表现原优于机器学习;

(2)贝叶斯模型搭配BOW嵌入效果较好;

(3)SVM模型搭配TF-IDF嵌入效果较好;

(4)BERT模型有极强的文本特征提取能力;

(5)图像数据对谣言监测是有意义的;

(6)使用多模态谣数据进行谣言检测可以最优化检测效果。

10

Thankyou!

文档评论(0)

1亿VIP精品文档

相关文档