- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
随着互联网的迅速发展以及数据爆炸式的增长,用户获取有效信息的途径变得愈发
多样,网络上的垃圾文本也随之增多。部分用户会通过各种平台发布无关的垃圾信息,
这些信息的出现造成了资源浪费的现象,也对人们的生活和财产安全产生了一定的影响。
因此,开展对数据信息中垃圾文本过滤分类研究,不仅能够提升用户的体验感,而且对
平台的维护与网络良好环境的构建提供了坚实的基础。
在文本过滤算法中,传统的文本表示通常对特征词的语义信息、权重值等方面考虑
不足。在特征提取方面,深度模型中的CNN、RNN等模型能够提取局部特征信息、语
义信息相比于传统的机器学习,在过滤过程中能够得到更好的精准率,但是这些模型对
于长距离不连续的词语共现的特征捕获不充分。本文针对上述问题提出一种融合加权
Word2Vec的BiGR-CN垃圾文本过滤算法。本文主要研究内容如下:
针对GRU模型在提取特征词之间远距离依赖性不足的问题,本文提出一种基于双
通道BiGR-CN模型的垃圾文本过滤方法。该模型在BiGRU双向提取上下文特征信息的
基础上,使用GCN模型提取词语间的依赖关系,充分考虑文本中连续语义信息和全局
结构信息,对特征信息进行更充分的提取。
为了进一步提高BiGR-CN模型的过滤结果,本文提出了一种基于TFIN-IIDF加权
的Skip-Gram词向量表示方法。在文本表示层计算特征词的重要程度,该方法通过对特
征词在类间分布和类内分布的差异,调整相应的权重值,并将此权重值与Skip-Gram模
型训练的词向量进行加权,既保留词语的语义关系,又能够表示其权重差异。
本文在多个开源数据集中开展实验,将BiGR-CN与BiGRU、TextGCN等多组常用
模型进行对比,实验结果表明,本文模型在各项评价指标中均有一定程度的提升,充分
证明本文方法的有效性。
关键词:垃圾文本过滤;特征融合;BiGRU;TF-IDF算法
ResearchonTextFilteringMethodsBasedonDeepLearning
Abstract
WiththerapiddevelopmentoftheInternetandtheexplosivegrowthofdata,usersaccess
toeffectiveinformationhasbecomemoreandmorediverse,andthenumberofspamtextson
theInternethasalsoincreased.Someuserswillpublishirrelevantspaminformationthrough
variousplatforms,andtheappearanceofsuchinformationhascausedthephenomenonof
wastingresourcesandalsohasacertainimpactonpeopleslifeandpropertysecurity.Therefore,
carryingoutresearchontheclassificationofspamtextfilteringindatainformationcannotonly
improvetheusersexperience,butalsoprovideasolidfoundationforthemaintenanceofthe
platformandtheconstructionofagoodnetworkenvironment.
Inthetextfilteringalgorithm,thetraditionaltextrepresentationusuallydoesnotconsider
enoughsemanticinformationandweightvaluesoffeaturewords.Intermsoffeatureextraction,
deepmodels
您可能关注的文档
最近下载
- 汽修公司汽车修理汽车保养突发环境应急预案.docx VIP
- 某水库除险加固工程施工组织设计.doc VIP
- 全国预防接种技能竞赛理论训练题库及答案(中华人民共和国疫苗管理法212题).docx VIP
- 2025年(完整)人教精通版小学英语3-6年级单词词汇表 .pdf VIP
- 天翼云认证解决方案架构师考试题及答案(新版).doc VIP
- 港迪HF659系列变频器使用说明书V100(G20200812).pdf VIP
- 水库除险加固工程施工组织设计120页.doc VIP
- 《农业政策热点培训》课件.ppt VIP
- 申凌门机NSFC01-01A控制器操作手册.pdf
- 从大食物观角度出发的中国饲料粮供给安全问题探讨.docx VIP
文档评论(0)