CN114861645B 一种基于长尾数据分布的文档级关系抽取方法 (浙江大学).docxVIP

  • 0
  • 0
  • 约1.87万字
  • 约 30页
  • 2026-01-19 发布于重庆
  • 举报

CN114861645B 一种基于长尾数据分布的文档级关系抽取方法 (浙江大学).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114861645B(45)授权公告日2025.07.08

(21)申请号202210469592.6

(22)申请日2022.04.28

(65)同一申请的已公布的文献号申请公布号CN114861645A

(43)申请公布日2022.08.05

(73)专利权人浙江大学

地址310058浙江省杭州市西湖区余杭塘

路866号

GO6F40/30(2020.01)

GO6N5/025(2023.01)

GO6N3/0455(2023.01)

GO6N3/0464(2023.01)

(56)对比文件

US2021294970A1,2021.09.23US2022067278A1,2022.03.03审查员甄红欣

(72)发明人纪守领杜扬恺伍一鸣张旭鸿

祝羽艳陈建海

(74)专利代理机构杭州求是专利事务所有限公

司33200专利代理师郑海峰

(51)Int.CI.

GO6F40/279(2020.01)权利要求书4页说明书9页附图2页

(54)发明名称

一种基于长尾数据分布的文档级关系抽取

方法

(57)摘要

CN114861645B本发明公开了一种基于长尾数据分布的文档级关系抽取方法,属于信息抽取和机器学习领域。包括文档预处理、文档编码、关系编码、数据增广和关系预测。在数据增广方面,本发明针对带标签的三元向量组集合,随机选取或者预设需要进行增广的关系类型,设计掩码向量,对待进行数据增广的原始三元向量组中的池化上下文表示进行扰动,生成新的三元向量组;可以有效提升文档级关系抽取模型预测尾部关系类型的准确率。同时,相比于传统的基于文本的数据增广方法,本发明不需要进行额外的文本编码过程,提高了模型训练的计算效率。此外,本发明提出的基于数据增广的对比学习预训练框架,能够

CN114861645B

CN114861645B权利要求书1/4页

2

1.一种基于长尾数据分布的文档级关系抽取方法,其特征在于,包括以下步骤:

步骤1:文档预处理

在给定文档中标注所有实体,并在实体边界标注特殊字符作为该实体在文档中的一次提及;

步骤2:文档编码

将预处理后的文档作为预训练Transformer模型的输入,获取文档中所有字符的上下文语义表示作为向量编码,以及获取实体之间的自注意力矩阵;

步骤3:关系编码

遍历两两实体构成实体对;根据文档编码结果,计算文档中每一个实体的向量表示,以及实体对的池化上下文表示,构成三元向量组;在模型训练阶段,需要标注每一个实体对的所属关系标签,并执行步骤4;在实际预测阶段,直接执行步骤5;

步骤4:数据增广

针对带标签的三元向量组集合,随机选取或者预设需要进行增广的关系类型,设计掩码向量,对待进行数据增广的原始三元向量组中的池化上下文表示进行扰动,生成新的三元向量组;将原始三元向量组集合与数据增广得到的三元向量组集合作为训练集,训练得到文档级关系抽取模型;

步骤5:关系预测

采用步骤1-3中的方法对给定文档进行预处理、文档编码和关系编码,利用训练好的文档级关系抽取模型对得到的三元向量组进行关系预测,输出存在有效关系的实体对及其所属关系。

2.根据权利要求1所述的基于长尾数据分布的文档级关系抽取方法,其特征在于,所述的预训练Transformer模型采用BERT模型。

3.根据权利要求2所述的基于长尾数据分布的文档级关系抽取方法,其特征在于,所述的步骤2具体为:

将已标注实体及提及的文档输入BERT模型中,获得文档中所有字符的上下文语义表示H,以及自注意力矩阵A;表示为:

H,A=Ptr(D={w?,W?,…,wi})

其中,D={w1,W2,…,W?}表示词序列长度为1的文档,w?表示文档中的第1个字符;Ptr(.)代表预训练的BERT模型,H为BERT模型最后一层输出的词向量,为文档中所有字符的上下文语义表示;A为BERT模型最后一层中的自注意力矩阵。

4.根据权利要求1所述的基于长尾数据分布的文档级关系抽取方法,其特征在于,所述的步骤3具体为:

3.1)遍历两两实体构成实体对;

3.2)根据文档编码结果,计算文档中每一个实体的向量表示:

其中,e?表示第i个实体的向量表示,m;;表示第i个实体在

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档