基于提示学习和优化长尾分布的中医病症分类模型及应用.pdf

下载文档

14
0
约8.12万字
约 61页
2024-01-09 发布于江苏
举报
版权申诉
保障服务

基于提示学习和优化长尾分布的中医病症分类模型及应用.pdf

1、本文档共61页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要

在新冠疫情的防控工作中，中医药发挥了积极的作用。本文研究中医病症分

类，相较于Bi-LSTM和TextCNN，Bert模型的分类效果更为出色。但在样本匮

乏和数据分布不均衡的场景下，仅仅使用fine-tune的方式，Bert模型的性能还有

明显的提升空间。针对样本匮乏和数据分布不均衡的问题，采用基于提示学习人

工设计模板和改进损失函数的方法，提出Prompt_Trig_Bert文本分类模型，适应

中医病症分类任务的特点，有效提高模型的分类性能。

本文主要研究内容和创新点如下：

(1)针对样本匮乏的问题，通过预训练语言模型学习语言知识，在过程中给

出提示信息，引导模型进行微调。采用提示学习的方法微调Bert预训练语言模

型，提高模型的小样本学习能力和鲁棒性。在构建Prompt时，尝试三种不同的

人工设计模板：前缀掩码(Prefix_MASK)、后缀掩码(Postfix_MASK)、触发词

MASK(Trigger_MASK)。通过实验选定最佳人工设计模板——Trigger_MASK。

(2)针对数据分布不均衡的问题（即长尾分布），由于Bertfine-tune模型倾

向于预测样本数量更多、更常见的类别，对数量少、更罕见的类别分类效果较差，

而DiceLoss能降低数量更多、更常见的类别在损失函数中的权重，使得损失函

数倾向于数量少、更罕见的类别，所以采用改进的DiceLoss替换CELoss。

(3)由于在构造模板过程中融入了对病症分类的先验知识，Trigger_MASK

模板实验效果优于另外两种人工设计模板，在选定最佳模板Trigger_MASK算法

的基础上融入改进的DiceLoss损失函数，进而提出基于提示学习人工设计模板

(Trigger_MASK)和改进DiceLoss损失函数的Prompt_Trig_Bert文本分类模型。

实验结果表明，Prompt_Trig_Bert模型的实验效果优于Bertfine-tune模型

（F1-socre提升3.1%，Precision值提升3%，Recall值提升3.2%），在小样本场

景下预测罕见类别（妇科和外科）的学习能力得到提高，进而提高模型分类性能。

(4)系统开发与创新创业应用。使用Prompt_Trig_Bert模型部署并开发中医

病症分类系统，并将系统应用在一款自主设计的中医智能诊治设备中。在软硬件

研发过程中，申请并获得多个国家专利，获得“互联网+”竞赛国家级铜奖（项

目名称：木林森--创新医疗服务，提高中药药效）、全国三维数字化创新设计大

赛国家级一等奖（项目名称：社区型自助中药智能粉碎煎药一体机）等一系列国

家级创新创业竞赛奖励。

关键词：文本分类；Bert模型；提示学习；长尾分布；中医病症分类系统

Abstract

Inthepreventionandcontrolofthenewcrownepidemic,traditionalChinese

medicinehasplayedanactiverole.ThispaperstudiestheclassificationofTCM

diseases.ComparedwithBi-LSTMandTextCNN,theclassificationeffectoftheBert

modelisbetter.However,inscenarioswheresamplesarescarceanddatadistribution

isuneven,theperformanceoftheBertmodelstillhasobviousroomforimprovement

byonlyusingthefine-tunemethod.Aimingattheproblemoflackofsamplesand

unbalanceddatadistribution,thePrompt_Trig_

基于提示学习和优化长尾分布的中医病症分类模型及应用.pdf 原文免费试下载

您可能关注的文档

文档评论（0）

136****6583 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：7043055023000005

1亿VIP精品文档

更多 >

基于提示学习和优化长尾分布的中医病症分类模型及应用.pdf