- 0
- 0
- 约1.43千字
- 约 10页
- 2024-01-05 发布于浙江
- 举报
基于多模态数据的
社交平台谣言检测
1
《大数据架构与技术》
任务介绍
01
文本
图片
标签
不要再随便买奶制品给孩子喝了❗️幼儿园都发通知了家长们注意:现在得白血病的小孩越来越多,妇幼保健院提示您,请不要给宝宝喝爽歪歪和有添加剂的牛奶饮料,告诉家里有小孩的朋友,旺仔牛奶、可口可乐、爽歪歪、娃哈哈AD钙奶、未来星、QQ星、美汁源果粒奶优菠萝味的。都含有肉毒杆菌。现在紧急召回。
1(谣言)
【男子遭遇电信诈骗银行门口上吊自杀】据河南电视台@都市报道,一个月前,周口的熊先生带着1万元来到新乡做小生意,没想到前天接到电信诈骗电话,把1万块钱通过农行汇给了骗子,受骗后向银行和公安求助。今早,因为想不开,他来到农业银行门口自杀。目前警方已经介入此事。
0(真实)
02
数据集介绍
真实推文样本数
虚假推文样本数
训练集
3568
3615
测试集
939
900
来源于微博
包含文本、图像、标签
谣言样本来源于微博官方辟谣平台确认的谣言
真实样本来源于新华社确认的新闻
03
算法选择
贝叶斯分类器
03
算法选择
SVM分类器
每个支持向量到超平面的距离:
最优化问题:
03
算法选择
多模态神经网络分类
文本特征提取:BERT
特征维度:768
图像特征提取:VGG-19
特征维度:1000
运行结果分析
04
模型
数据
特征提取
Accuracy
Precision
Recall
F1
bayes
text
10000维BOW文本嵌入
0.5993
0.9218
0.1971
0.3248
bayes
text
30000维BOW文本嵌入
0.6679
0.8913
0.3652
0.5182
bayes
text
34517维BOW文本嵌入(不限制)
0.6804
0.8839
0.3987
0.5495
svm
text
500维TF-IDF文本嵌入
0.6505
0.7747
0.4020
0.5293
svm
text
1000维TF-IDF文本嵌入
0.6772
0.8224
0.4332
0.5675
svm
text
5000维TF-IDF文本嵌入
0.6870
0.8968
0.4064
0.5594
svm
text
1024维Word2Vec文本嵌入
0.5846
0.7288
0.2394
0.3604
svm
text
512维Word2Vec文本嵌入
0.5977
0.7476
0.2673
0.3938
svm
text
128维Word2Vec文本嵌入
0.6000
0.7555
0.2684
0.3961
NN
text
768维Bert嵌入
0.8042
0.8253
0.7911
0.7919
NN
image
1000维VGG特征
0.6394
0.6312
0.6333
0.6323
NN
text,image
768维Bert嵌入,1000维VGG特征
0.8260
0.8159
0.8322
0.8240
运行结果分析
04
(1)深度学习算法的表现原优于机器学习;
(2)贝叶斯模型搭配BOW嵌入效果较好;
(3)SVM模型搭配TF-IDF嵌入效果较好;
(4)BERT模型有极强的文本特征提取能力;
(5)图像数据对谣言监测是有意义的;
(6)使用多模态谣数据进行谣言检测可以最优化检测效果。
10
Thankyou!
您可能关注的文档
最近下载
- Dalsa相机使用说明.pdf
- 2026年工程建设质量管理小组活动案例解析交流会资料汇编(中施企协 博鳌)_可搜索.pdf
- 2026年腾讯公司高管秘书面试技巧与答案.docx VIP
- 云南省昆明市第一中学2025届高三下学期第七次联考(一模)英语试题(含答案,无听力原文、答案及音频).pdf VIP
- 备战2025年深圳中考物理《热学、力学实验》含答案解析.docx VIP
- 备战2025年深圳中考物理《质量与密度、压强、浮力实验》含答案解析.docx VIP
- 2026年中考英语语法复习《宾语从句,定语从句和状语从句》真题模拟题汇编(原卷).docx VIP
- 2023年湖南省长沙中考数学试卷真题(含答案逐题详解)+2022年数学试卷及答案详解.docx
- 2026中考复习专题04:圆的常考模型汇总(原卷版) .pdf VIP
- 2026年中考英语语法复习《动词时态》真题模拟题汇编(原卷).docx VIP
原创力文档

文档评论(0)