- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
JournalofComputerApplicationsISSN1001⁃90812025⁃04⁃10
计算机应用,2025,45(4):1113-1119CODENJYIIDUhttp://www.joca.cn
文章编号:1001-9081(2025)04-1113-07DOI:10.11772/j.issn.1001-9081.2024040550
结合标签混淆的中文文本分类数据增强技术
12*1,31
孙海涛,林佳瑜,梁祖红,郭洁
(1.广东工业大学计算机学院,广州510006;2.广东工业大学图书馆,广州510006;3.广东工业大学实验教学部,广州510006)
(∗通信作者电子邮箱linjiayu@gdut.edu.cn)
摘要:传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信
息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为
解决这些问题,提出一种结合标签混淆的数据增强(LCDA)技术,从文本和标签这2个基本方面入手,为数据提供全面
的强化。在文本方面,通过对文本进行标点符号随机插入和替换以及句末标点符号补齐等增强,在保留全部文本信
息和顺序的同时增加文本的多样性;在标签方面,采用标签混淆方法生成模拟标签分布替代传统的one-hot标签分布,
以更好地反映实例和标签与标签之间的关系。在THUCNews(TsingHuaUniversityChineseNews)和Toutiao这2个中文
新闻数据集构建的小样本数据集上分别结合TextCNN、TextRNN、BERT(BidirectionalEncoderRepresentationsfrom
Transformers)和RoBERTa-CNN(RobustlyoptimizedBERTapproachConvolutionalNeuralNetwork)文本分类模型的实验
结果表明,与增强前相比,性能均得到显著提升。其中,在由THUCNews数据集构造的50-THU数据集上,4种模型结
合LCDA技术后的准确率相较于增强前分别提高了1.19、6.87、3.21和2.89个百分点;相较于softEDA(EasyData
Augmentationwithsoftlabels)方法增强的模型分别提高了0.78、7.62、1.75和1.28个百分点。通过在文本和标签这2
个维度的处理结果可知,LCDA技术能显著提升模型的准确率,在数据量较少的应用场景中表现尤为突出。
关键词:数据增强;文本分类;标签混淆;中文新闻主题;预训练模型
中图分类号:TP391.1文献标志码:A
Dataaugmentationtechniqueincorporatinglabelconfusionfor
Chinesetextclassification
1
您可能关注的文档
- 结合GBDT特征衍生与集成学习的客户忠诚度预测.pdf
- 结合LDA主题模型和LSTM的领域技术研究热点预测方法研究.pdf
- 结合LSTM和自注意力机制的图卷积网络短期电力负荷预测.pdf
- 结合NSCT变换和引导滤波的多光谱图像全色锐化算法.pdf
- 结合SM9和盲签名的联盟链交易隐私保护方案.pdf
- 结合Swin Transformer的多尺度遥感图像变化检测研究.pdf
- 结合Swin Transformer与MobileNetv3的多源无人机影像目标检测方法.pdf
- 结合Transformer的双向GRU入侵检测研究.pdf
- 结合Transformer和动态特征融合的低照度目标检测.pdf
- 结合Transformer和多尺度异构融合的遥感图像变化检测方法.pdf
最近下载
- 电厂讲解——直流系统课件.ppt VIP
- 英文期刊论文发表-通往国际学术舞台的阶梯(哈工大)大学MOOC慕课 客观题答案.docx VIP
- 附件1 党建工作电子档案归档材料(资料)分类 一、组织生活类 1.“三会一 ....docx VIP
- 读《丝绸之路》有感.docx VIP
- 英语畅谈中国文化(王志茹)课后习题答案解析.docx VIP
- 聚光光伏发电系统的技巧.doc VIP
- 分频型聚光光伏热(CPVT)系统:理论剖析与实验洞察.docx
- 法理学大一考试题及答案.doc VIP
- 2025高考假期提升专项练习地理解密之解答题含答案及解析.docx VIP
- 人工肩关节置换(反肩).ppt VIP
- 1.ppt制作及优化;2.办公模板制作;3.文案制作及优化。 + 关注
-
实名认证服务提供商
教师资格证、公共营养师持证人
本人专注ppt制作、办公模板编辑六年有余,可以根据客户需求做出高品质ppt、办公表格等模板,以及文案等。
原创力文档


文档评论(0)