针对中文医疗小样本数据的命名实体识别的研究.pdfVIP

  • 0
  • 0
  • 约10.57万字
  • 约 62页
  • 2026-03-16 发布于江西
  • 举报

针对中文医疗小样本数据的命名实体识别的研究.pdf

摘要

命名实体识别旨在从文本中识别出具有特定意义的实体,如疾病、症状、检查、

治疗等。然而,传统的命名实体识别方法通常对大规模标注数据有较高依赖,而在

中文医疗领域,很难获得充足的标注数据。因此,本文针对中文医疗小样本的命名

实体识别展开研究,旨在推动中文医疗领域的发展。

近年来,随着ChatGPT的出现,越来越多的研究者开始关注利用大语言模型来

完成小样本命名实体识别。在命名实体识别领域,这种方法具有非常重要的意义。

基于大语言模型强大的理解和生成能力,利用大语言模型解决小样本命名实体识别

的问题成为了一种有效的方法,但已有的方法也面临一些挑战。首先,为了最大程

度激发大语言模型的理解和生成能力,需要构造一个最佳的Prompt作为大语言模型

的输入。但对于不同的输入句子,其所需要的最佳的提示是不同的,因此,人工来

构造最佳的提示是极为困难的。其次,命名实体识别本质上是一个序列标注任务,

而大语言模型主要通过对话来实现生成任务,这两个任务形式不同,需要将序列标

注任务转换为生成任务的形式。最后,目前的大语言模型存在幻觉现象,因此需要

一种有效抑制利用大语言模型解决命名实体识别时出现幻觉的手段。

本课题针对上述问题,首先提出了一种基于示例专家的命名实体识别方法,该

方法主要用于命名实体识别,通过训练一个示例专家模型来动态生成最佳的Prompt,

以帮助大语言模型更精准地识别实体。其次,本文通过重述输入语句,并在重述时

利用特殊符号标注实体的方法来将序列标注任务转换为生成式任务。最后,为了缓

解识别过程中出现的幻觉现象,本文又提出了基于多模型的命名实体识别验证方法,

该验证方法主要用于检查命名实体识别过程中是否出现幻觉,利用GLM-130B、

ChatGPT等多个大语言模型通过投票表决的方式进行多模型验证,从而在一定程度

上缓解大语言模型幻觉的问题。

最后,本文通过实验验证了所提出方法的有效性,结果表明利用大语言模型重

构命名实体识别任务是可行且有效的,且本文的示例专家能够极大提升小样本命名

实体识别的性能和泛化性。此外,在引入多模型验证的方法后,小样本命名实体识

别的性能能够进一步提升,并且有效地减少了大语言模型的幻觉现象。

关键词:大语言模型;命名实体识别;示例专家;ChatGPT

ABSTRACT

Namedentityrecognitionaimstoidentifyentitieswithspecificmeaningsfromtext,

suchasdiseases,symptoms,tests,andtreatments.However,traditionalnamedentity

recognitionmethodsoftenrelyheavilyonlarge-scaleannotateddata,whichisdifficultto

obtainintheChinesemedicalfield.Therefore,thispaperfocusesonnamedentity

recognitionwithsmallsamplesinChinesemedicaltexts,aimingtopromotethe

developmentofChinesemedicalfield.

Inrecentyears,withtheemergenceofChatGPT,moreandmoreresearchershave

startedtopayattentiontousingLargeLanguageModelstocompletenamedentity

recognitionwithsmallsamples.Thisapproachis

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档