- 0
- 0
- 约1.54万字
- 约 25页
- 2026-01-23 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN113378573B(45)授权公告日2025.01.10
(21)申请号202110706996.8
(22)申请日2021.06.24
(65)同一申请的已公布的文献号申请公布号CN113378573A
(43)申请公布日2021.09.10
GO6F
GO6F
GO6N
GO6N
GO6N
GO6N
40/284(2020.01)18/22(2023.01)3/042(2023.01)
3/0464(2023.01)
3/0442(2023.01)
3/0455(2023.01)
(73)专利权人北京华成智云软件股份有限公司
地址100070北京市丰台区南四环西路128
号院1号楼5层526
(56)对比文件
CN106776545A,2017.05.31
CN112069319A,2020.12.11
(72)发明人杨鹏娄健程昌虎张磊宏审查员顾瑜尉
(74)专利代理机构南京众联专利代理有限公司32206
专利代理师叶涓涓
(51)Int.CI.
GO6F40/16(2020.01)
GO6F40/295(2020.01)权利要求书4页说明书6页附图3页
(54)发明名称
面向内容大数据的小样本关系抽取方法和
装置
(57)摘要
CN113378573B本发明公开了一种面向内容大数据的小样本关系抽取方法和装置。本发明首先利用预训练语言模型和字符级LSTM对句子进行向量化处理;其次通过双仿射机制和图神经网络提取文本结构特征;同时使用单词级LSTM和BERT中表示语义信息的[CLS]词向量将上下文语境信息融入实体对的词向量,构造含语境信息的实体对特征;最后通过相似-差异关系网络提取句子特征的相似性和差异性进行小样本关系抽取。本发明在内容大数据场景下应用小样本学习,充分地提取了文
CN113378573B
三
三
CN113378573B权利要求书1/4页
2
1.面向内容大数据的小样本关系抽取方法,其特征在于,包括如下步骤:
步骤1,对句子进行融合字符信息的向量化
使用预训练语言模型BERT对文本进行向量化,在BERT基础版的预训练词向量后加入仿射层对词向量进行降维,降低模型的参数量;使用字符级的双向LSTM获取已经嵌入了字符信息的单词向量;具体包括如下过程:
使用预训练语言模型BERT的基础版对句子进行向量化,计算如式(1)所示,其中[CLS]表示能够表征句子上下文的分类特征向量,[SEP]表示分句词向量,sentence=[w?,W?,…,
w.]表示句子的单词列表,L表示文本句长度:
Hbert=BERTase([CLS];sentence;[SEP])=[has,h?,h?,…,h,hseP(1)
再使用仿射层对预训练的词向量进行降维,计算如式(2)所示,其中田表示拼接操作,便于将偏置也通过参数矩阵Ubert)进行训练:
hpre-train=U(bert)·(hbert田1)(2)
使用双向LSTM获取嵌入字符信息的单词向量hchars,最后计算出的词向量输入hora是由经过降维的预训练词向量hpre-train和嵌入了字符信息的词向量hchars拼接得到,hchars和hword计算分别如式(3)和式(4)所示:
hchars=[LSTM(c?,C?,…,Cw);LSTM(C?,C?,…,Cw)](3)
hword=[hpre-train;hchars(4)
步骤2,提取句子的关系依存结构特征
使用双仿射机制在文本序列词向量输入上实现无向的依存关系图构建,在进行双仿射变换之前先使用两个多层感知机对词向量进行降维处理,通过双仿射机制构造的依存关系矩阵为基础构造输入文本句的依存关系图,再使用图卷积神经网络从依存关系图中提取文本结构特征;具体包括如下过程:
在进行双仿射变换之前先使用两个多层感知机MLP(arehead)和MLP(arc-deD将词向量的维度从Dem减小到
您可能关注的文档
- CN112837241B 建图重影去除方法、设备及存储介质 (贵州京邦达供应链科技有限公司).docx
- CN112840473B 形成有机-无机金属卤化物钙钛矿的晶体或多晶层的方法 (牛津光伏有限公司).docx
- CN112884665B 一种动画播放方法、装置、计算机设备及存储介质 (腾讯科技(深圳)有限公司).docx
- CN112907451B 图像处理方法、装置、计算机设备和存储介质 (腾讯科技(深圳)有限公司).docx
- CN112930701B 用于在功率受限的双连通性场景中维持长期演进话务的方法和装置 (高通股份有限公司).docx
- CN112951804B 包括划线的半导体装置及制造半导体装置的方法 (三星电子株式会社).docx
- CN112996558B 用于多通道同时大功率磁线圈驱动器的方法和装置 (约纳·佩莱德).docx
- CN113011206B 手持扫描仪及其扫描方法 (先临三维科技股份有限公司).docx
- CN113034348B 图像处理方法、装置、存储介质及设备 (北京字节跳动网络技术有限公司).docx
- CN113078153B 半导体器件及其形成方法 (台湾积体电路制造股份有限公司).docx
最近下载
- 喷墨打印OLED技术全球竞争格局与发展策略.docx VIP
- 深度解析(2026)《GBT 45845.2-2025智慧城市基础设施整合运营框架 第2部分:开发与运维指南》.pptx VIP
- 2025年煤矿安全生产条例、两办意见、硬措施试卷(附答案).docx VIP
- SIMOCODE的参数设置及修改作业指导书.pdf.pdf VIP
- 煤矿两办意见和八项硬措施题(附答案).doc VIP
- 2023-2024学年江苏省南京市玄武区八年级(上)期末物理试卷及答案解析.pdf VIP
- 2022中国慢性自发性荨麻疹患者疾病负担白皮书.pdf VIP
- 雅思阅读:高频文章34 纸张与电脑.pdf VIP
- 2025年修订版《检验检测机构监督管理办法》知识试题库及答案.docx VIP
- 《居家与社区医疗相结合的养老服务规范》DB52T 1891-2025(贵州省标).pdf
原创力文档

文档评论(0)