一种基于Bert的实体关系流水线抽取方法和系统[发明专利].pdfVIP

  • 4
  • 0
  • 约1.09万字
  • 约 10页
  • 2023-05-16 发布于广西
  • 举报

一种基于Bert的实体关系流水线抽取方法和系统[发明专利].pdf

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 112199519 A (43)申请公布日 2021.01.08 (21)申请号 202011294897.5 (22)申请日 2020.11.18 (71)申请人 北京观微科技有限公司 地址 100094 北京市海淀区唐家岭路弘祥 百旺产业园3113 (72)发明人 隋娟 汪磊 谢永虎 田玉宇  国强强 赵金奇  (74)专利代理机构 北京慕达星云知识产权代理 事务所 (特殊普通合伙) 11465 代理人 符继超 (51)Int.Cl. G06F 16/36 (2019.01) G06F 16/33 (2019.01) G06F 40/295 (2020.01) 权利要求书2页 说明书5页 附图2页 (54)发明名称 一种基于Bert的实体关系流水线抽取方法 和系统 (57)摘要 本发明公开了一种基于Bert的实体关系流 水线抽取方法和系统,该方法包括:对非结构文 本段落进行预处理;基于预先获得的Bert模型和 CRF模型,构建命名实体识别模型;将预处理后的 非结构文本段落数据输入所述命名实体识别模 型,得到实体识别结果;构建特定行业领域知识 库,将所述实体识别结果按照所述特定行业领域 知识库内的匹配规则进行关系匹配,获得实体关 系三元组。本发明利用规则匹配的方式,可以快 速解决句子级关系抽取时实体重叠的问题,在实 现了文本中实体关系自动抽取的同时,保证了抽 A 取结果的精度。 9 1 5 9 9 1 2 1 1 N C CN 112199519 A 权 利 要 求 书 1/2页 1.一种基于Bert的实体关系流水线抽取方法,其特征在于,包括: 对非结构文本段落进行预处理; 基于预先获得的Bert模型和CRF模型,构建命名实体识别模型; 将预处理后的非结构文本段落数据输入所述命名实体识别模型,得到实体识别结果; 构建特定行业领域知识库,将所述实体识别结果按照所述特定行业领域知识库内的匹 配规则进行关系匹配,获得实体关系三元组。 2.根据权利要求1所述的一种基于Bert的实体关系流水线抽取方法,其特征在于,对非 结构文本段落进行预处理的过程,具体包括: 对所述非结构文本段落进行句法分析,补全缺少主语的句子; 建立代词消歧词库,利用正则表达式匹配算法,对所述非结构文本段落内的代词进行 替换; 对所述非结构文本段落进行分句,获得句子集合。 3.根据权利要求2所述的一种基于Bert的实体关系流水线抽取方法,其特征在于,将预 处理后的非结构文本段落数据输入所述命名实体识别模型,得到实体识别结果的过程,具 体包括: 对所述句子集合进行字符编码、位置编码和句子编码,并将编码结果输入所述Bert模 型,得到高维特征向量; 将所述高维特征向量输入所述CRF模型,对字符标签进行结构化预测,获得标签序列概 率的对数,并输出得分最高的标签序列,得到实体识别结果。 4.根据权利要求3所述的一种基于Bert的实体关系流水线抽取方法,其特征在于,所述 标签序列概率的对数为: 其中,Y 表示输出标签序列的向量空间,p(O,Y)是指对于输出的标签序列O,得到预测标 x 签序列Y的概率,f(O,Y)为得分函数。 5.根据权利要求1所述的一种基于Bert的实体关系流水线抽取方法,其特征在于,所述 实体关系三元组为(头实体,关系,尾实体)。 6.一种基于Bert的实体关系流水线抽取系统

文档评论(0)

1亿VIP精品文档

相关文档