- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
摘要
随着网络的普及和移动化,社交网络在人们的社交生活中占有越来越大的比
例,由此人们可以在社交网站上获取各类新闻消息。然而与此同时也出现了许多异
常用户经常发布各种仇恨言论来对个体或群体进行贬低,并且这些仇恨言论造成
不利影响。为了促进社会更加和平、包容和公正,维护社交网络平台的健康性,通
过仇恨言论识别方法,发现社交网络中的仇恨言论具有重要意义。
社交网络中的仇恨言论识别任务相较于其他文本分类任务而言具有以下问题:
一方面,仇恨言论的文本规范程度不够理想,推文中往往会含有许多表情、俚语和
错别字词等,同时仇恨言论对于某些不应有仇恨情绪的词(如人群)的过度提及,
这些特点使得神经网络模型在训练中会产生不应当的过度拟合,形成模型的偏差;
另一方面,社交网络中的仇恨言论文本长度常常较短,导致语义过于稀疏,模型难
以捕获足够的信息。对于这些问题,已有的方法没有很好的解决。因此本文针对上
述已有仇恨言论识别方法存在的这两个问题进行研究,主要贡献为:
(1)提出了一种基于文本质量和单词分布偏差纠正的仇恨言论识别方法。该方
法对数据集中的文本质量(即文本规范程度)和单词分布偏差进行纠正,在不同文
本长度区间上,结合文本质量分布差异和单词分布差异,计算出需要补充的对应长
度、文本质量且包含单词的非仇恨言论推文数量,并补充对应所需数量的推文,从
而达到数据集中文本质量和单词分布的均衡,消除潜在的偏差。通过对比方法实验,
在测试集上的预测效果证明了该方法有效消除了文本质量和单词分布偏差,有效
消除了模型的潜在偏差和提高了模型分类性能。
(2)提出了一种基于语义概念扩展的仇恨言论识别方法。为了克服仇恨言论短
文本语义稀疏的问题,该方法在构建分类模型时进行语义概念扩展。模型引入外部
知识库补充短文本缺少的语义,通过注意力机制来赋予外部知识中的有效信息更
大权重,并且利用基于知识图谱构建的句子级的特征和文本的词袋模型信息对语
义概念进行扩展,最后构建文本联合特征表示,用于仇恨言论识别。实验证明该方
法语义概念扩展效果有效,增强了模型的仇恨言论识别性能。
关键词:社交网络,仇恨言论,短文本分类,深度学习
ABSTRACT
WiththepopularizationandmobilizationoftheInternet,socialnetworksoccupya
largerandlargerproportioninpeoplessociallife,sothatpeoplecanobtainallkindsof
newsonsocialnetworkingsites.However,atthesametime,manyabnormalusersoften
postvarioushatespeechestodegradeindividualsorgroups,andthesehatespeecheshave
adverseeffects.Inordertopromoteamorepeaceful,inclusiveandjustsocietyand
maintainthehealthofsocialnetworkplatforms,itisofgreatsignificancetodiscoverhate
speechinsocialnetworksthroughhatespeechidentificationmethods.
Comparedwithothertextclassificationtasks,thehatespeechrecognitiontaskin
socialnetworkshasthefollowingproblems:ontheonehand,thetextstandardizationof
hatespeechisnotideal,andtweetsoftencontainmanyexpressions,slangwords,
misspelledwords,etc.,andhatespeechForsomewords
您可能关注的文档
最近下载
- 3万吨全粉5万吨法式薯条加工项目可行性研究报告编制格式说明(模板型word).pdf VIP
- 初中物理竞赛试题精选精编第16讲电与磁(含答案与解析).docx VIP
- 第6章 机械振动-改 h(实际4h).ppt
- 2023-2024全国初中物理竞赛试题精选精编第16讲电与磁(解析版).doc VIP
- 2025年全国中小学校党组织书记网络培训示范班在线考试题库及答案.docx VIP
- 中国共产党统一战线工作条例学习PPT课件.pptx VIP
- 前程无忧国企入职题库.pdf VIP
- QCT29106-2004线束标准详细介绍.pdf VIP
- 钠离子电池正极材料的发展与产业化研究.pdf
- 进度控制监理细则.doc VIP
文档评论(0)