针对中文医疗小样本数据的命名实体识别的研究.pdfVIP

下载本文档

0
0
约10.57万字
约 62页
2026-03-16 发布于江西
举报

针对中文医疗小样本数据的命名实体识别的研究.pdf

摘要

命名实体识别旨在从文本中识别出具有特定意义的实体，如疾病、症状、检查、

治疗等。然而，传统的命名实体识别方法通常对大规模标注数据有较高依赖，而在

中文医疗领域，很难获得充足的标注数据。因此，本文针对中文医疗小样本的命名

实体识别展开研究，旨在推动中文医疗领域的发展。

近年来，随着ChatGPT的出现，越来越多的研究者开始关注利用大语言模型来

完成小样本命名实体识别。在命名实体识别领域，这种方法具有非常重要的意义。

基于大语言模型强大的理解和生成能力，利用大语言模型解决小样本命名实体识别

的问题成为了一种有效的方法，但已有的方法也面临一些挑战。首先，为了最大程

度激发大语言模型的理解和生成能力，需要构造一个最佳的Prompt作为大语言模型

的输入。但对于不同的输入句子，其所需要的最佳的提示是不同的，因此，人工来

构造最佳的提示是极为困难的。其次，命名实体识别本质上是一个序列标注任务，

而大语言模型主要通过对话来实现生成任务，这两个任务形式不同，需要将序列标

注任务转换为生成任务的形式。最后，目前的大语言模型存在幻觉现象，因此需要

一种有效抑制利用大语言模型解决命名实体识别时出现幻觉的手段。

本课题针对上述问题，首先提出了一种基于示例专家的命名实体识别方法，该

方法主要用于命名实体识别，通过训练一个示例专家模型来动态生成最佳的Prompt，

以帮助大语言模型更精准地识别实体。其次，本文通过重述输入语句，并在重述时

利用特殊符号标注实体的方法来将序列标注任务转换为生成式任务。最后，为了缓

解识别过程中出现的幻觉现象，本文又提出了基于多模型的命名实体识别验证方法，

该验证方法主要用于检查命名实体识别过程中是否出现幻觉，利用GLM-130B、

ChatGPT等多个大语言模型通过投票表决的方式进行多模型验证，从而在一定程度

上缓解大语言模型幻觉的问题。

最后，本文通过实验验证了所提出方法的有效性，结果表明利用大语言模型重

构命名实体识别任务是可行且有效的，且本文的示例专家能够极大提升小样本命名

实体识别的性能和泛化性。此外，在引入多模型验证的方法后，小样本命名实体识

别的性能能够进一步提升，并且有效地减少了大语言模型的幻觉现象。

关键词：大语言模型；命名实体识别；示例专家；ChatGPT

ABSTRACT

Namedentityrecognitionaimstoidentifyentitieswithspecificmeaningsfromtext,

suchasdiseases,symptoms,tests,andtreatments.However,traditionalnamedentity

recognitionmethodsoftenrelyheavilyonlarge-scaleannotateddata,whichisdifficultto

obtainintheChinesemedicalfield.Therefore,thispaperfocusesonnamedentity

recognitionwithsmallsamplesinChinesemedicaltexts,aimingtopromotethe

developmentofChinesemedicalfield.

Inrecentyears,withtheemergenceofChatGPT,moreandmoreresearchershave

startedtopayattentiontousingLargeLanguageModelstocompletenamedentity

recognitionwithsmallsamples.Thisapproachis

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

针对中文医疗小样本数据的命名实体识别的研究.pdfVIP