- 1、本文档共61页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
在新冠疫情的防控工作中,中医药发挥了积极的作用。本文研究中医病症分
类,相较于Bi-LSTM和TextCNN,Bert模型的分类效果更为出色。但在样本匮
乏和数据分布不均衡的场景下,仅仅使用fine-tune的方式,Bert模型的性能还有
明显的提升空间。针对样本匮乏和数据分布不均衡的问题,采用基于提示学习人
工设计模板和改进损失函数的方法,提出Prompt_Trig_Bert文本分类模型,适应
中医病症分类任务的特点,有效提高模型的分类性能。
本文主要研究内容和创新点如下:
(1)针对样本匮乏的问题,通过预训练语言模型学习语言知识,在过程中给
出提示信息,引导模型进行微调。采用提示学习的方法微调Bert预训练语言模
型,提高模型的小样本学习能力和鲁棒性。在构建Prompt时,尝试三种不同的
人工设计模板:前缀掩码(Prefix_MASK)、后缀掩码(Postfix_MASK)、触发词
MASK(Trigger_MASK)。通过实验选定最佳人工设计模板——Trigger_MASK。
(2)针对数据分布不均衡的问题(即长尾分布),由于Bertfine-tune模型倾
向于预测样本数量更多、更常见的类别,对数量少、更罕见的类别分类效果较差,
而DiceLoss能降低数量更多、更常见的类别在损失函数中的权重,使得损失函
数倾向于数量少、更罕见的类别,所以采用改进的DiceLoss替换CELoss。
(3)由于在构造模板过程中融入了对病症分类的先验知识,Trigger_MASK
模板实验效果优于另外两种人工设计模板,在选定最佳模板Trigger_MASK算法
的基础上融入改进的DiceLoss损失函数,进而提出基于提示学习人工设计模板
(Trigger_MASK)和改进DiceLoss损失函数的Prompt_Trig_Bert文本分类模型。
实验结果表明,Prompt_Trig_Bert模型的实验效果优于Bertfine-tune模型
(F1-socre提升3.1%,Precision值提升3%,Recall值提升3.2%),在小样本场
景下预测罕见类别(妇科和外科)的学习能力得到提高,进而提高模型分类性能。
(4)系统开发与创新创业应用。使用Prompt_Trig_Bert模型部署并开发中医
病症分类系统,并将系统应用在一款自主设计的中医智能诊治设备中。在软硬件
研发过程中,申请并获得多个国家专利,获得“互联网+”竞赛国家级铜奖(项
目名称:木林森--创新医疗服务,提高中药药效)、全国三维数字化创新设计大
赛国家级一等奖(项目名称:社区型自助中药智能粉碎煎药一体机)等一系列国
家级创新创业竞赛奖励。
关键词:文本分类;Bert模型;提示学习;长尾分布;中医病症分类系统
I
Abstract
Inthepreventionandcontrolofthenewcrownepidemic,traditionalChinese
medicinehasplayedanactiverole.ThispaperstudiestheclassificationofTCM
diseases.ComparedwithBi-LSTMandTextCNN,theclassificationeffectoftheBert
modelisbetter.However,inscenarioswheresamplesarescarceanddatadistribution
isuneven,theperformanceoftheBertmodelstillhasobviousroomforimprovement
byonlyusingthefine-tunemethod.Aimingattheproblemoflackofsamplesand
unbalanceddatadistribution,thePrompt_Trig_
文档评论(0)