基于多粒度特征融合的中文命名实体识别方法研究.pdf

基于多粒度特征融合的中文命名实体识别方法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于多粒度特征融合的中文命名实体识别方法研究

摘要

近年来自然语言处理技术飞速发展,人工智能与自然语言处理的进步正在不断颠覆

着人们的生活方式,ChatGPT、文心一言的出现又掀起了自然语言处理技术一轮新的浪

潮,其强大的语言理解能力和问答生成系统都离不开自然语言处理与信息抽取技术。命

名实体识别又是其中最为关键的一环,命名实体识别的质量极大影响了问答系统、机器

翻译、知识库构建等下游任务质量。因此,该任务备受学术界和工业界的关注,具有重

要的研究意义和价值。

随着人工智能和深度学习技术的发展,命名实体识别技术已经达到了相当高的水

平,但中文命名实体识别起步较晚,仍面临诸多挑战,尤其是序列中词、字符、部首级、

跨句上下文这几种多粒度特征利用问题上,如:中文的词信息、汉字的部首级信息没有

很好的被探索和利用,序列中跨句上下文信息难以有效利用等问题。针对上述问题,本

文对序列中词、字符、部首级、跨句上下文几种多粒度信息抽取及融合问题展开研究,

主要的研究内容和创新如下:(1)本文提出融合部首级信息的扩展软词格模型来利用

序列中词、字符、部首级三种不同粒度的信息。对于部首级信息,使用一个部首级信息

提取模块挖掘并利用序列字符中的象形信息,具体方法为抽取4719个常用汉字的部首

信息、构造信息和书写位置序列,接着将其转化为使用word2vec表示的低维稠密向量,

再使用文本卷积和池化进行特征提取。对于词信息,扩展原有的软词方法,更为详细的

划分了中间组的位置信息,减少了软词方法词字符相对位置信息的损失,以此来缓解随

实体长度增长模型效果下降严重的问题。(2)本文提出了融合滑动跨句上下文信息的

命名实体识别方法来利用序列中的字符、跨句上下文两种不同粒度的信息。首先使用

Star-Transformer模型,基于BERT编码提取出序列中句子的全局信息表示。接着利用滑

动窗口机制,动态的将上下文全局信息表示融入到当前待计算句子序列中,提高了模型

的灵活性。此外,通过利用句子全局信息表示,将引入跨句上下文信息的成本从句子级

降低到了字符级,相比于不引入跨句上下文,训练效率几乎没有下降。

在不同领域公开的数据集上将本文提出的两种模型与基线模型进行对比分析,采用

精确率、召回率、F1分数作为模型性能评价指标,实验结果证明了所提两个融合多粒

度特征模型的有效性。

关键词:中文命名实体识别;格模型;部首级信息;跨句上下文信息

基于多粒度特征融合的中文命名实体识别方法研究

Abstract

Inrecentyears,therapiddevelopmentofArtificialIntelligence(AI)andNatural

LanguageProcessing(NLP)technologyhassignificantlytransformedhumanlifestyles.The

emergenceofChatGPTandWenxinYiyanareleadingthewayinnaturallanguageprocessing

research,particularlyintheareasoflanguagecomprehensionandquestion-and-answer

generationsystems,whichheavilyrelyonnaturallanguageprocessingandinformation

extractiontechnologies.NamedEntityRecognition(NER)standsoutasoneofthemost

crucialsub-technologiesinthesetechnologies.ThequalityofNERresultshasaprofound

impactondownstreamtaskssuchasquestion-and-answersystems,machinetranslation,and

knowledgebaseconstruction.Consequently,NERhasgarneredsignificant

文档评论(0)

拥有快乐的你 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档