- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
PAGE51
PAGE51
基于BERT-DPCNN模型的谣言检测方法分析案例
目录
TOC\o1-3\h\u27142基于BERT-DPCNN模型的谣言检测方法分析案例 1
84651.1引言 1
70841.2问题描述 1
168561.3基于BERT-DPCNN模型的谣言检测方法 2
281091.1.1模型整体结构 2
115731.1.2数据预处理模块 3
23241.1.3数据嵌入模块 3
152021.1.4特征提取模块 6
220591.1.5谣言分类模块 8
98341.4文本与用户信息特征提取 8
293861.5实验及结果分析 10
147181.5.1数据集 10
308101.5.2实验设置 11
326541.5.3实验数据分析 12
1.1引言
在以往对微博谣言的研究中最先使用的方法是应用支持向量机构建分类器,直到2016年深度学习模型才被应用。之后,RNN、CNN、LSTM、Attention等深度学习方法被广泛应用。由于大多数微博谣言以文本方式吸引人注意力,所以研究者们最开始的注意力只在微博文本上,忽略了微博的其他特征。本文使用BETR-DPCNN深度学习模型进行谣言检测,并加入除文本特征外的用户信息特征。
1.2问题描述
通常情况下,微博谣言检测的目标是将疑似谣言的微博文本内容检测出来,并判断是否为谣言。以下是本文微博谣言检测的数字化定义:
D={(m1,n1,p1),(m2,n2,p2),(m3,n3,p3),……,(mi,ni,pi)}
其中D代表有标签的微博训练数据集合,(m1,n1,p1)代表1条数据记录的形式,i表示微博数据集合的大小,即D共包含i条记录,mi表示文本信息,ni表示特征信息,pi∈{0,1}表示文本信息的标签,即标记是否为谣言。对于本文中的微博谣言检测任务,同样被当作二分类模型。
1.3基于BERT-DPCNN模型的谣言检测方法
微博谣言检测主要针对的是微博文本特征。在文本内容的处理方面,一般的神经网络模型,如RNN、CNN、LSTM等都需要借助词袋模型先处理文本。但词袋模型在处理文本内容时,并不能联合文本前后之间的关系。又因为BERT可以直接处理中文内容和句子关系,所以本模型采用BERT方法。
1.1.1模型整体结构
图3-1BERT+DPCNN模型结构图
BERT-DPCNN模型主要实现对用户信息特征和文本内容信息特征的提取,区分出谣言与非谣言,达到微博谣言检测的目的。本模型采用BERT方法预处理数据,结合DPCNN方法提取特征,最后通过softmax层,实现对微博谣言的分类,0代表的预测结果为非谣言,1代表的预测结果为谣言。模型结构如图3-1所示。
按照该模型处理数据的步骤,可以将模型划分为4个模块。第一个模块是数据预处理模块,首先要做的是去除数据中不必要的信息,整合模型需要处理的特征,再进行下一步的处理。第二个模块是数据嵌入模块,将第一步处理完成的数据转变成模型可处理的向量。第三模块是特征提取模块,用来完成对微博数据特征的提取。最后一个模块是谣言的分类模块,判定输入的微博数据是否为谣言。下文将分别对本模型的各个模块进行详细的描述。
1.1.2数据预处理模块
谣言检测任务的第一步都是处理数据,因为文本内容数据大多繁杂,需要去除杂乱的部分。数据的处理,对于模型训练结果有至关重要的影响。处理的数据与模型契合度越高,得到的效果越理想。否则,即便是极好的模型,也不能达到期望目标,甚至更差。因此,在收集完数据后,首先分析数据内容,结合自己实验的具体需求,对数据进行针对性的处理。
如图3-2所示的一则微博谣言,其中包括用户信息,普通文字和特殊字符(如@,#话题#)。为处理这些杂糅的数据,本文应用了成熟且强大的被广泛用来处理字符串的工具——正则表达式。实验应用python语言编写,因此在处理杂糅数据时,只需调用re模块进行匹配微博数据的文本内容。结果如图3-3中的a所示。
图3-2微博内容图
由第二章所提到的BERT模型可知,数据在输入BERT模型之后会被进行分词处理。官方给出BERT分词模型的分词器有两个:一个是基础分词器,另一个是字分词器。其主要的分词方式是首先对句子进行粗略的划分得到一个临时的列表,之后对临时列表按最小单位--字来划分句子,得到最终的分词结果,这样得到的字典更清晰。分词过程中,在句子的开头标记好[cls],该句子的结尾加上[sep],这样可以使句子更好的进行区分。分词的大体流程如图3-3中b所示。
图3-3数据的清理与划分
1.1.3数据嵌入模块
数据嵌入模块包括三层,分别为词嵌入层、句子嵌入
您可能关注的文档
- 2025《ANSYS参数化设计(APDL)在均布荷载简支梁中的应用实例分析》1000字.doc
- 2025《A银行南京分行贸易融资产品体系分析案例》6200字.docx
- 2025《EMD方法原理及其在ECG信号处理中存在的问题分析综述》7800字.docx
- 2025《MMC-HVDC系统的基本控制策略综述》6800字.docx
- 2025《S实验学校校园篮球开展的劣势分析案例》2100字.docx
- 2025《S实验学校校园篮球开展的优势分析案例》7500字.docx
- 2025《XX大酒店客房部外宾接待方案设计》4500字.docx
- 2025《巴彦高勒矿井刮板输送机选型分析案例》5100字.docx
- 2025《巴彦高勒矿井胶带运输机选型分析案例》5700字.docx
- 2025《巴彦高勒矿井乳化液泵站选型分析案例》5000字.docx
最近下载
- 苏教版六年级上册科学全册全套单元检测卷含期末(附答案).doc VIP
- 2024年贵州省遵义市播州区小升初数学模拟试卷附答案解析.docx VIP
- 12123交管学法减分试题库大全(有答案).pdf VIP
- 《C语言程序设计》(苏小红)课后习题答案高等教育出版社.pdf VIP
- 2026年福建省能源石化集团有限责任公司招聘备考题库及答案详解(夺冠系列).docx VIP
- 年产40万吨丙烯厂(MTP)甲醇合成工段初步设计.docx VIP
- 两级展开式圆柱齿轮减速器的设计.doc VIP
- 退学炒股:我和小明(珍藏版).docx VIP
- DB42_T1901-2022 生物质供热系统工程设计规范.docx VIP
- 2023-2024学年广东省中山市七年级(上)期末语文试卷.docx VIP
原创力文档


文档评论(0)