网站大量收购独家精品文档,联系QQ:2885784924

基于提示学习和优化长尾分布的中医病症分类模型及应用.pdf

基于提示学习和优化长尾分布的中医病症分类模型及应用.pdf

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

在新冠疫情的防控工作中,中医药发挥了积极的作用。本文研究中医病症分

类,相较于Bi-LSTM和TextCNN,Bert模型的分类效果更为出色。但在样本匮

乏和数据分布不均衡的场景下,仅仅使用fine-tune的方式,Bert模型的性能还有

明显的提升空间。针对样本匮乏和数据分布不均衡的问题,采用基于提示学习人

工设计模板和改进损失函数的方法,提出Prompt_Trig_Bert文本分类模型,适应

中医病症分类任务的特点,有效提高模型的分类性能。

本文主要研究内容和创新点如下:

(1)针对样本匮乏的问题,通过预训练语言模型学习语言知识,在过程中给

出提示信息,引导模型进行微调。采用提示学习的方法微调Bert预训练语言模

型,提高模型的小样本学习能力和鲁棒性。在构建Prompt时,尝试三种不同的

人工设计模板:前缀掩码(Prefix_MASK)、后缀掩码(Postfix_MASK)、触发词

MASK(Trigger_MASK)。通过实验选定最佳人工设计模板——Trigger_MASK。

(2)针对数据分布不均衡的问题(即长尾分布),由于Bertfine-tune模型倾

向于预测样本数量更多、更常见的类别,对数量少、更罕见的类别分类效果较差,

而DiceLoss能降低数量更多、更常见的类别在损失函数中的权重,使得损失函

数倾向于数量少、更罕见的类别,所以采用改进的DiceLoss替换CELoss。

(3)由于在构造模板过程中融入了对病症分类的先验知识,Trigger_MASK

模板实验效果优于另外两种人工设计模板,在选定最佳模板Trigger_MASK算法

的基础上融入改进的DiceLoss损失函数,进而提出基于提示学习人工设计模板

(Trigger_MASK)和改进DiceLoss损失函数的Prompt_Trig_Bert文本分类模型。

实验结果表明,Prompt_Trig_Bert模型的实验效果优于Bertfine-tune模型

(F1-socre提升3.1%,Precision值提升3%,Recall值提升3.2%),在小样本场

景下预测罕见类别(妇科和外科)的学习能力得到提高,进而提高模型分类性能。

(4)系统开发与创新创业应用。使用Prompt_Trig_Bert模型部署并开发中医

病症分类系统,并将系统应用在一款自主设计的中医智能诊治设备中。在软硬件

研发过程中,申请并获得多个国家专利,获得“互联网+”竞赛国家级铜奖(项

目名称:木林森--创新医疗服务,提高中药药效)、全国三维数字化创新设计大

赛国家级一等奖(项目名称:社区型自助中药智能粉碎煎药一体机)等一系列国

家级创新创业竞赛奖励。

关键词:文本分类;Bert模型;提示学习;长尾分布;中医病症分类系统

I

Abstract

Inthepreventionandcontrolofthenewcrownepidemic,traditionalChinese

medicinehasplayedanactiverole.ThispaperstudiestheclassificationofTCM

diseases.ComparedwithBi-LSTMandTextCNN,theclassificationeffectoftheBert

modelisbetter.However,inscenarioswheresamplesarescarceanddatadistribution

isuneven,theperformanceoftheBertmodelstillhasobviousroomforimprovement

byonlyusingthefine-tunemethod.Aimingattheproblemoflackofsamplesand

unbalanceddatadistribution,thePrompt_Trig_

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档