- 0
- 0
- 约1.87万字
- 约 30页
- 2026-01-19 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN114861645B(45)授权公告日2025.07.08
(21)申请号202210469592.6
(22)申请日2022.04.28
(65)同一申请的已公布的文献号申请公布号CN114861645A
(43)申请公布日2022.08.05
(73)专利权人浙江大学
地址310058浙江省杭州市西湖区余杭塘
路866号
GO6F40/30(2020.01)
GO6N5/025(2023.01)
GO6N3/0455(2023.01)
GO6N3/0464(2023.01)
(56)对比文件
US2021294970A1,2021.09.23US2022067278A1,2022.03.03审查员甄红欣
(72)发明人纪守领杜扬恺伍一鸣张旭鸿
祝羽艳陈建海
(74)专利代理机构杭州求是专利事务所有限公
司33200专利代理师郑海峰
(51)Int.CI.
GO6F40/279(2020.01)权利要求书4页说明书9页附图2页
(54)发明名称
一种基于长尾数据分布的文档级关系抽取
方法
(57)摘要
CN114861645B本发明公开了一种基于长尾数据分布的文档级关系抽取方法,属于信息抽取和机器学习领域。包括文档预处理、文档编码、关系编码、数据增广和关系预测。在数据增广方面,本发明针对带标签的三元向量组集合,随机选取或者预设需要进行增广的关系类型,设计掩码向量,对待进行数据增广的原始三元向量组中的池化上下文表示进行扰动,生成新的三元向量组;可以有效提升文档级关系抽取模型预测尾部关系类型的准确率。同时,相比于传统的基于文本的数据增广方法,本发明不需要进行额外的文本编码过程,提高了模型训练的计算效率。此外,本发明提出的基于数据增广的对比学习预训练框架,能够
CN114861645B
CN114861645B权利要求书1/4页
2
1.一种基于长尾数据分布的文档级关系抽取方法,其特征在于,包括以下步骤:
步骤1:文档预处理
在给定文档中标注所有实体,并在实体边界标注特殊字符作为该实体在文档中的一次提及;
步骤2:文档编码
将预处理后的文档作为预训练Transformer模型的输入,获取文档中所有字符的上下文语义表示作为向量编码,以及获取实体之间的自注意力矩阵;
步骤3:关系编码
遍历两两实体构成实体对;根据文档编码结果,计算文档中每一个实体的向量表示,以及实体对的池化上下文表示,构成三元向量组;在模型训练阶段,需要标注每一个实体对的所属关系标签,并执行步骤4;在实际预测阶段,直接执行步骤5;
步骤4:数据增广
针对带标签的三元向量组集合,随机选取或者预设需要进行增广的关系类型,设计掩码向量,对待进行数据增广的原始三元向量组中的池化上下文表示进行扰动,生成新的三元向量组;将原始三元向量组集合与数据增广得到的三元向量组集合作为训练集,训练得到文档级关系抽取模型;
步骤5:关系预测
采用步骤1-3中的方法对给定文档进行预处理、文档编码和关系编码,利用训练好的文档级关系抽取模型对得到的三元向量组进行关系预测,输出存在有效关系的实体对及其所属关系。
2.根据权利要求1所述的基于长尾数据分布的文档级关系抽取方法,其特征在于,所述的预训练Transformer模型采用BERT模型。
3.根据权利要求2所述的基于长尾数据分布的文档级关系抽取方法,其特征在于,所述的步骤2具体为:
将已标注实体及提及的文档输入BERT模型中,获得文档中所有字符的上下文语义表示H,以及自注意力矩阵A;表示为:
H,A=Ptr(D={w?,W?,…,wi})
其中,D={w1,W2,…,W?}表示词序列长度为1的文档,w?表示文档中的第1个字符;Ptr(.)代表预训练的BERT模型,H为BERT模型最后一层输出的词向量,为文档中所有字符的上下文语义表示;A为BERT模型最后一层中的自注意力矩阵。
4.根据权利要求1所述的基于长尾数据分布的文档级关系抽取方法,其特征在于,所述的步骤3具体为:
3.1)遍历两两实体构成实体对;
3.2)根据文档编码结果,计算文档中每一个实体的向量表示:
其中,e?表示第i个实体的向量表示,m;;表示第i个实体在
您可能关注的文档
- CN114764331B 代码生成方法、装置、电子设备和计算机可读存储介质 (上海壁仞科技股份有限公司).docx
- CN114766082B 通信方法和通信设备 (北京小米移动软件有限公司).docx
- CN114779015B 基于超分辨率和图神经网络的配电网故障诊断与定位方法 (浙江大学).docx
- CN114782350B 一种基于注意力机制的多模态特征融合的mri脑瘤图像分割方法 (浙江工业大学).docx
- CN114785330B 高压集成电路、计数方法和半导体电路 (广东汇芯半导体有限公司).docx
- CN114786009B 视频编码中限制块尺寸的视频数据处理方法与装置 (寰发股份有限公司).docx
- CN114788134B 马达铁芯及其制造方法 (杰富意钢铁株式会社).docx
- CN114817648B 一种高能效协同图计算方法及装置 (华中科技大学).docx
- CN114818316B 基于锂离子电池电化学模型的功率出力可行域估计方法 (清华大学).docx
- CN114821223B 预训练图像文本模型处理方法和图文检索系统 (杭州阿里巴巴海外互联网产业有限公司).docx
- CN114861825B 数字钥匙端定位性能分类方法及装置、分类设备及介质 (上海银基信息安全技术股份有限公司).docx
- CN114862368B 一种工作流实例的运行方法、装置、电子设备及存储介质 (北京白海科技有限公司).docx
- CN114862809B 一种基于移动终端与图像处理的振动监测方法和装置 (杭州意能电力技术有限公司).docx
- CN114863112B 基于U-net语义分割茶嫩芽识别与采摘点定位方法及系统 (江苏大学).docx
- CN114863297B 一种目标车辆检测方法、装置、设备及介质 (北京科技大学).docx
- CN114879663B 一种机器人控制方法、芯片以及机器人 (珠海一微半导体股份有限公司).docx
- CN114900647B 一种校园访客监控系统及方法 (河南应用技术职业学院).docx
- CN114905910B 车辆姿态平衡系统、方法、设备及存储介质 (天津港第二集装箱码头有限公司).docx
- CN114910696B 一种电线直流电压的非接触测量装置及方法 (广州商学院).docx
- CN114926652B 基于交互与聚合式特征优化的孪生跟踪方法及系统 (厦门理工学院).docx
最近下载
- 【基恩士】LK-G5000 系列 用户手册 (简体中文).pdf VIP
- 交通运输部发布《2025年交通运输行业发展统计公报》.docx
- 皮内注射技术操作并发症的预防与处理规范.ppt VIP
- 电影制作合同.doc VIP
- 初中人教版历史八年级上册期末试卷及答案.docx VIP
- JB∕T 13988-2020 防爆门式起重机.pdf
- 2025年高温尼龙行业分析报告及未来五到十年行业发展趋势报告.docx
- 13G311-1 建筑工程.房屋建筑.混凝土结构加固构造.pdf VIP
- 面包吐司烘焙甜品店营销策划PPT模板.pptx VIP
- GB50666-2011 混凝土结构工程施工规范.docx VIP
原创力文档

文档评论(0)