- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于BERT与多语义学习的关系抽取研究
研究生:董萌导师:朱新华教授
学科:软件工程研究方向:自然语言处理年级:2021级
摘要
自然语言处理技术作为人工智能领域的重要分支之一,在阅读、搜索、问答等方面
取得了巨大的突破,其中最为关键的就是理解和利用文本中所蕴含的大量有用信息。文
本关系抽取是知识获取的关键技术,它是自然语言处理中的最基础的任务之一,旨在识
别文本中的不同实体之间的关系。通过研究关系抽取技术,可以将文本中实体和实体之
间的关系识别并提取出来,将非结构化的文本信息转化为结构化的知识,从而更好的利
用这些信息。
有监督的关系抽取是指利用已标注好的训练数据来指导模型学习实体之间的关系,
一直以来都是关系抽取研究中的重点。但标注数据的获取通常需要耗费大量的时间和人
力成本,所以有监督的关系抽取中存在数据集规模小的问题,而关系抽取的深度神经网
络模型需要使用大规模的语料进行训练。为了缓解上述矛盾,本文以预训练语言模型
BERT为基础,提出了文本关系抽取的多语义学习模型,主要工作如下:
(1)为了更好的捕捉句子中不同层次的语义和信息,为任务提供更丰富的特征向
量的表示,本文在R-BERT模型的基础上做出了改进,设计出一种多级句子特征提取层。
将被编码过后的向量再输入进多头注意力层和多层卷积层来提取更为精细的特征,因为
层次较深,使用了残差网络来避免信息丢失。并且,为了整合不同的特征向量,做到语
义的互补,本文设计了两种不同的融合机制,一种是基于门控机制的处理方式,将不同
的特征向量通过更新门和重置门来衡量贡献度,生成最终的特征向量。另一种是基于多
头注意力、门控机制和残差网络的机制的处理方式,将不同的特征向量拼接起来输入进
多头注意力层,再通过门控机制突出关键信息,并使用残差网络弥补丢失的信息。通过
实验证明,本文提出的模型能够有效的提升关系抽取的效果。
(2)为了使模型能更好的理解实体间的关系,弥补数据集规模较小的问题,本文提
出了一种由左侧语义、右侧语义和全局语义组成的基于BERT与多方面语义的关系抽取
模型。该模型在输入的时候以实体为中心将样本划分成左侧样本、右侧样本和原始样本,
为了增强实体感知,将实体拼接在每种样本的后面,然后输入进同一个BERT进行编码。
之后使用了合适的方法将不同的特征向量融合。同时,在训练的时候本文固定了BERT
模型的词嵌入层,发现可以取得更加优异的效果。通过实验证明,本文提出的模型能够
更好的理解实体间的关系,提高关系抽取性能。
关键词:BERT;多级句子特征提取层;多方面语义;固定嵌入层
ResearchonRelationExtractionBasedonBERTandMulti-
SemanticLearning
Graduatestudent:MengDong
Supervisor:Prof.XinhuaZhu
Major:SoftwareEngineering
Researchdirection:NaturalLanguageProcessing
Grade:2021
Abstract
Asoneoftheimportantbranchesinthefieldofartificialintelligence,naturallanguage
processingtechnologyhasmadegreatbreakthroughsinreading,searching,questionandanswer,
etc.,inwhichthemostcrucialthingistounderstandandutilizealargeamountofuseful
informationcontainedinthetext.Textualrelationextractionisakeytechniqueforknowledge
acquisition,whichisone
原创力文档


文档评论(0)