- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
1922025,61(4)ComputerEngineeringandApplications计算机工程与应用
简单且有效的弱监督中文文本分类算法
陈中涛,周亚同+
河北工业大学电子信息工程学院,天津300401
+通信作者E-mail:zyt@
摘要:目前基于种子词的弱监督文本分类算法大多需要从数据集中搜索所有种子词并以此扩展类别词典,出现频
率较低的种子词的类别识别能力也较低。因此设计了一个简单且有效的弱监督中文文本分类算法(simpleand
effectiveweaklysupervisedChinesetextclassification,SEWClass)。该方法利用预训练语言模型初始权重生成对
文本的抽象理解,并以此为基础继续生成抽象约束条件和具象约束条件,以构建初次训练的伪标签数据;根据类别
数量联合构建降维模型与分类器,以适应弱监督文本分类需要预先指定类别和在自训练过程中需要增加训练数据
的特点;通过两种约束条件,伪标签数据拥有较高精确率,并在自训练过程中仅训练降维模型以提升召回率和算法
效率。SEWClass对每个类别只需要一个种子词,如类别名称,即可完成分类任务,且SEWClass的性能与种子词是
否出现在数据集中无关。SEWClass在THUCNews与toutiao两个中文数据集上的性能均远高于其他弱监督算法。
关键词:弱监督;文本分类;自训练;种子词
文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2310-0009
SimpleandEffectiveWeaklySupervisedChineseTextClassificationAlgorithm
CHENZhongtao,ZHOUYatong+
SchoolofElectronicandInformationEngineering,HebeiUniversityofTechnology,Tianjin300401,China
Abstract:Mostofthecurrentweaklysupervisedtextclassificationalgorithmsbasedonseedwordsneedtosearchall
seedwordsfromthedatasetandextendthecategorydictionaryinthisway,andthecategoryrecognitionabilityofseed
wordsthatoccurlessfrequentlyisalsolower.Therefore,asimpleandeffectiveweaklysupervisedChinesetextclassifi-
cation(SEWClass)algorithmisdesigned,whichusestheinitialweightsofthepre-trainedlanguagemodeltogenerate
anabstractunderstandingofthetextandcontinuestogenerateabstractconstraintsandfigurativeconstraintsbasedonthis
toconstructtheinitialtraining.Basedonthenumberofcategories,adimensionalityreductionmodelandaclassifierare
jointlyconstructedtoadapttothefactthattheweaklysupervisedtextclassificationneedstobespecifiedinadvance,and
needstoincreasetrainingdataduringself-training.Withthetwoconstraints,thepseudo
您可能关注的文档
最近下载
- SHT 3139-2011 石油化工重载荷离心泵工程技术规范.docx VIP
- 读书分享《教育的细节》PPT课件.pptx VIP
- 小学保护环境ppt课件.pptx VIP
- 党纪学习教育:党章第七章党的纪律.pptx VIP
- 第9课 创新增才干-【中职专用】2024年中职思想政治《哲学与人生》金牌课件(高教版2023·基础模块).pptx VIP
- 2026中国小型NOR闪存市场深度调研与未来前景预测分析研究报告.docx
- 2024年保险公估人考试真题卷及答案.doc VIP
- 《GB_T 15544.1-2023三相交流系统短路电流计算 第1部分:电流计算》专题研究报告.pptx VIP
- 安全管理理念认知培训课件.pptx VIP
- Q/GDW 11815-2018 - 配电自动化终端技术规范.pdf VIP
- 1.ppt制作及优化;2.办公模板制作;3.文案制作及优化。 + 关注
-
实名认证服务提供商
教师资格证、公共营养师持证人
本人专注ppt制作、办公模板编辑六年有余,可以根据客户需求做出高品质ppt、办公表格等模板,以及文案等。
原创力文档


文档评论(0)